8 điểm bởi xguru 2023-06-23 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Thư viện mã nguồn mở dành cho suy luận và phục vụ LLM tốc độ cao
  • Quản lý hiệu quả khóa/giá trị attention bằng thuật toán PagedAttention
    • Thông lượng cao hơn 24 lần so với HuggingFace Transformers mà không cần thay đổi kiến trúc mô hình
    • Có thể lưu các khóa/giá trị liên tục trong không gian bộ nhớ không liên tục
  • Đang được sử dụng thành công trong LMSYS Vicuna và Chatbot Arena

Chưa có bình luận nào.

Chưa có bình luận nào.