- Thư viện mã nguồn mở dành cho suy luận và phục vụ LLM tốc độ cao
- Quản lý hiệu quả khóa/giá trị attention bằng thuật toán PagedAttention
- Thông lượng cao hơn 24 lần so với HuggingFace Transformers mà không cần thay đổi kiến trúc mô hình
- Có thể lưu các khóa/giá trị liên tục trong không gian bộ nhớ không liên tục
- Đang được sử dụng thành công trong LMSYS Vicuna và Chatbot Arena
Chưa có bình luận nào.