vLLM: Phục vụ LLM dễ dàng, nhanh và tiết kiệm với PagedAttention

xguru · 2023-06-23T10:32:02+09:00

Thư viện mã nguồn mở dành cho suy luận và phục vụ LLM tốc độ cao Quản lý hiệu quả khóa/giá trị attention bằng thuật toán PagedAttention Thông lượng cao hơn 24 lần so với HuggingFace Transformers mà không cần thay đổi kiến trúc mô hình Có thể lưu các khóa/giá trị liên tục trong không gian bộ nhớ không liên tục Đang được sử dụng thành công trong LMSYS Vicuna và Chatbot Arena

(vllm.ai)

8 điểm bởi xguru 2023-06-23 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Thư viện mã nguồn mở dành cho suy luận và phục vụ LLM tốc độ cao
Quản lý hiệu quả khóa/giá trị attention bằng thuật toán PagedAttention
- Thông lượng cao hơn 24 lần so với HuggingFace Transformers mà không cần thay đổi kiến trúc mô hình
- Có thể lưu các khóa/giá trị liên tục trong không gian bộ nhớ không liên tục
Đang được sử dụng thành công trong LMSYS Vicuna và Chatbot Arena

vLLM: Phục vụ LLM dễ dàng, nhanh và tiết kiệm với PagedAttention

Bài viết liên quan

Chưa có bình luận nào.