14 điểm bởi darjeeling 2025-09-02 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Xem chi tiết tại liên kết URL. Đây là bản tóm tắt.

Thách thức cốt lõi trong việc phục vụ LLM (mô hình ngôn ngữ lớn) là quản lý bộ nhớ KV cache (Key-Value Cache) một cách hiệu quả. Các hệ thống hiện có bị giới hạn bởi vấn đề phân mảnh bộ nhớ (fragmentation), khiến mức độ tận dụng GPU giảm và thông lượng bị hạn chế.

vLLM giải quyết vấn đề này thông qua thuật toán PagedAttention, lấy cảm hứng từ bộ nhớ ảo và kỹ thuật paging của hệ điều hành. PagedAttention quản lý KV cache bằng cách chia nó thành các 'khối' không liên tục về mặt vật lý, từ đó giảm mạnh lãng phí bộ nhớ và cho phép cấp phát bộ nhớ linh hoạt hơn.

Dựa trên PagedAttention này, vLLM triển khai các công nghệ cốt lõi sau để tối đa hóa hiệu năng suy luận.

  • Batch liên tục (Continuous Batching): Hoạt động theo cách động, thêm yêu cầu vào batch ngay khi chúng đến và loại bỏ các chuỗi đã hoàn thành khỏi batch. Nhờ đó, thời gian GPU nhàn rỗi được giảm xuống mức tối thiểu, và thông lượng có thể tăng tới 24 lần so với phương pháp batch tĩnh truyền thống.

  • Hỗ trợ các tính năng suy luận nâng cao: vLLM tận dụng tính linh hoạt của PagedAttention để hỗ trợ hiệu quả nhiều tính năng nâng cao như sau.

    • Prefill theo từng chunk (Chunked Prefill): Chia giai đoạn prefill của prompt dài thành nhiều chunk để ngăn một yêu cầu đơn lẻ chiếm dụng toàn bộ hệ thống, đồng thời cải thiện độ trễ của các yêu cầu khác.
    • Prefix caching: Chia sẻ KV cache của phần tiền tố (prefix) của prompt được dùng chung giữa nhiều yêu cầu mà không cần tính toán lại, từ đó loại bỏ các phép tính trùng lặp.
    • Guided và speculative decoding: Hỗ trợ các kỹ thuật kiểm soát đầu ra theo định dạng cụ thể (ví dụ: JSON) hoặc tăng tốc quá trình sinh bằng cách dùng một mô hình nháp nhỏ hơn.
    • Tách rời prefill/decoding (Disaggregated Prefill/Decoding): Xử lý giai đoạn prefill thiên về tính toán và giai đoạn decoding thiên về băng thông bộ nhớ trên các instance riêng biệt để tối ưu hóa việc sử dụng tài nguyên.

Tóm lại, vLLM giải quyết sự kém hiệu quả mang tính nền tảng trong quản lý KV cache thông qua PagedAttention, và từ đó nâng cao thông lượng cũng như hiệu năng của hệ thống suy luận LLM bằng các kỹ thuật tối ưu như batch liên tục.

Chưa có bình luận nào.

Chưa có bình luận nào.