Sổ tay suy luận LLM

(bentoml.com)

3 điểm bởi GN⁺ 2025-07-12 | 1 bình luận | Chia sẻ qua WhatsApp

Sổ tay suy luận LLM cung cấp hướng dẫn tổng hợp về các khái niệm cốt lõi và kỹ thuật tối ưu hóa cần thiết cho suy luận LLM trong môi trường production thực tế
Cung cấp các thông tin thiết yếu cho công việc thực tế như chỉ số hiệu năng (ví dụ: Time to First Token, Tokens per Second) và thực tiễn vận hành tốt nhất
Giải thích chi tiết các phương pháp tối ưu hóa mới nhất như continuous batching, prefix caching
Tập hợp kiến thức về suy luận LLM vốn phân tán vào một nơi để nâng cao khả năng hiểu và ứng dụng cho nhà phát triển
Sổ tay được cập nhật liên tục để phản ánh thông tin thực địa mới nhất và các phương pháp đã được kiểm chứng

Giới thiệu Sổ tay suy luận LLM

LLM Inference in Production là sự kết hợp giữa bảng thuật ngữ kỹ thuật, cẩm nang hướng dẫn và tài liệu tham khảo trong một
Trong sổ tay này, các nội dung bắt buộc phải nắm trong thực tế như khái niệm cơ bản về suy luận LLM, chỉ số hiệu năng, kỹ thuật tối ưu hóa (continuous batching, prefix caching, v.v.), thực tiễn vận hành tốt nhất được trình bày chi tiết

Cung cấp hướng dẫn thực tiễn về triển khai, mở rộng và vận hành LLM trong môi trường production
Loại bỏ các ngoại lệ phi thực tế hoặc nhiễu kỹ thuật không cần thiết, tập trung vào những điểm quan trọng tại hiện trường
Giới thiệu các kỹ thuật cải thiện hiệu năng phù hợp với từng trường hợp sử dụng, giúp cải thiện performance một cách thiết thực
Liên tục cập nhật các xu hướng mới nhất trong ngành và những insight đã được kiểm chứng trong thực tế

Động lực biên soạn

Các nhà phát triển thường gặp vấn đề tri thức bị phân mảnh vì khó tìm thông tin về suy luận LLM hoặc thông tin nằm rải rác ở nhiều nơi
Nhóm biên soạn sổ tay đã tổng hợp nội dung phân tán trong các bài báo, blog của vendor, GitHub Issues, hội thoại Discord, v.v. để giúp người đọc có thể hiểu một lần về:

Sự khác biệt giữa huấn luyện và suy luận LLM
Mối tương quan giữa Goodput và việc đạt SLO
Ứng dụng thực tế của kỹ thuật tách Prefill-Decode

Độc giả mục tiêu

Sổ tay này được biên soạn cho các kỹ sư triển khai, mở rộng và vận hành LLM trong môi trường production
Từ fine-tune các open model nhỏ đến vận hành hạ tầng tự xây dựng quy mô lớn,

mọi người đang muốn làm cho suy luận LLM nhanh hơn, rẻ hơn và đáng tin cậy hơn đều là độc giả chính

Cách sử dụng

Sổ tay này có cấu trúc cho phép đọc kỹ từ đầu đến cuối hoặc tra cứu riêng các phần cần thiết như một tài liệu tham khảo
Không có thứ tự tiếp cận hay cách dùng cố định nào,

nội dung mới nhất sẽ tiếp tục được bổ sung/cập nhật để theo kịp sự thay đổi nhanh chóng của lĩnh vực suy luận LLM

Hướng dẫn đóng góp

Hoan nghênh việc phát hiện lỗi, đề xuất cải tiến và bổ sung chủ đề mới

Bất kỳ ai cũng có thể tham gia bằng cách tạo issue hoặc gửi Pull Request lên kho lưu trữ GitHub

1 bình luận

GN⁺ 2025-07-12

Ý kiến trên Hacker News

Xin chào, tôi là một trong những maintainer chính của dự án này. Tôi rất vui và vinh dự khi dự án của chúng tôi được giới thiệu trên Hacker News. Lý do chúng tôi tạo ra cuốn handbook này là để ngay cả các nhà phát triển đang xây dựng ứng dụng LLM thực tế cũng có thể dễ dàng tiếp cận các khái niệm về suy luận LLM. Chúng tôi muốn tập hợp những kiến thức đang nằm rải rác ở nhiều nơi theo cách rõ ràng, thực tiễn và có khả năng mở rộng. Chúng tôi sẽ tiếp tục cải thiện để cuốn handbook ngày càng tốt hơn, nên rất mong nhận được phản hồi tích cực. Cũng mong mọi người tham khảo kho GitHub
- Cảm ơn rất nhiều vì đã hệ thống hóa như vậy. Tôi có một câu hỏi: khi nhìn vào hình minh họa định nghĩa TTFT và ITL trong hình này, có vẻ như mô hình tạo ra 4 token từ T0 đến T3 rồi mới xuất ra một token đầu ra. Theo tôi, hình này phù hợp hơn để giải thích ITL; còn với TTFT thì có vẻ ở giai đoạn decode chỉ cần sinh ra T0 rồi ngay lập tức đi tới detokenization để token đầu ra đầu tiên xuất hiện mới đúng. Nếu không phải trong môi trường streaming thì việc đo TTFT cũng không có nhiều ý nghĩa.
- Tôi không định mở issue riêng, nhưng tôi mong phần self-hosting của handbook sẽ khuyến nghị rõ ràng hơn các dự án mã nguồn mở suy luận self-hosting cục bộ như llama.cpp.
- Tôi thích vì handbook này hữu ích và được tổ chức tốt. Tuy nhiên, nó bị chia thành quá nhiều trang nhỏ nên trên di động mục lục không hiện sẵn, khiến việc đọc khá bất tiện. Tôi đã dừng sau khi đọc vài trang. Ít nhất, sẽ tốt hơn nếu mỗi section được hiển thị trên một trang.
- Công việc thực sự rất tuyệt, được làm rất đẹp và hữu ích.
Thiết kế cũng thật sự đẹp nên tôi tò mò muốn hỏi: xu hướng hoặc tên gọi của kiểu thiết kế được dùng cho trang web này là gì? Tôi cũng rất thích thiết kế của trang này.
- Có vẻ như họ dùng Infima làm framework CSS nền tảng. Đây là framework CSS mặc định của Docusaurus và tận dụng nguyên hệ thống font stack. font-family là -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif.
Mong sau này sẽ có thêm nội dung về Structured outputs/Guided generation và sampling. Là tài liệu tham khảo bổ sung về các thuật toán sampling trong giai đoạn suy luận, trang này cũng đáng xem.
- Ồ, tài liệu tổng hợp về sampling này cũng thật sự rất chi tiết.
Tôi rất vui khi có một cuốn handbook như thế này. Tôi hiểu vì sao trong các tài liệu công khai có rất nhiều sự quan tâm và hào hứng với việc huấn luyện mô hình, nhưng vận hành mô hình tốt trong thực tế cũng cực kỳ quan trọng. Nếu muốn được áp dụng rộng rãi hơn trong nhiều ứng dụng sau này, kiến thức về triển khai và vận hành sẽ ngày càng cần thiết.
Cảm ơn vì đã gom và hệ thống hóa như thế này. Từ giờ chỉ cần chia sẻ một liên kết này là người quan tâm có thể học được. Có một đề xuất là ở trang "OpenAI-compatible API", sẽ hay hơn nếu thêm cả ví dụ gọi thuần REST thay vì chỉ dùng package OpenAI.
Điều tôi nhớ về BentoML là trước đây hình như thiên về MLOps; tôi nhớ đã dùng nó khoảng 1 năm trước. Không biết công ty có đang chuyển hướng trọng tâm hay không?
- Vì mảng phục vụ LLM đang chiếm tỷ trọng lớn trên thị trường, nên với một framework serving thì mở rộng sang lĩnh vực này là một hướng đi tự nhiên.
Đây là một tài liệu tham khảo quá tốt, cảm ơn vì đã sắp xếp và tổng hợp kỹ lưỡng như vậy.