- Thư viện suy luận được thiết kế để chạy LLM cục bộ trên các GPU như 3090/4090
- Đây là bản phát hành ban đầu, mã nguồn hiện vẫn đang trong giai đoạn thử nghiệm và một số tính năng quan trọng vẫn chưa được triển khai
- So với V1, ExLlamaV2 nhanh hơn, có kernel tốt hơn, codebase gọn gàng và đa dạng hơn, đồng thời hỗ trợ các định dạng lượng tử hóa mới
- Phụ thuộc vào phần mở rộng Torch C++ cho các hàm CUDA, được biên dịch khi chạy. Lần đầu sử dụng thư viện sẽ mất 10-20 giây, nhưng phần mở rộng sẽ được lưu cache cho các lần dùng sau
- Hỗ trợ cùng các mô hình GPTQ 4-bit như V1, đồng thời cũng hỗ trợ định dạng mới "EXL2" cho phép trộn các mức lượng tử hóa trong cùng một mô hình để đạt bitrate trung bình từ 2-bit đến 8-bit
- Việc chọn tham số cho lượng tử hóa được thực hiện tự động, và có cung cấp script để lượng tử hóa mô hình
- Cũng đề cập rằng một số mô hình lượng tử hóa EXL2 đã được tải lên HuggingFace để người dùng có thể thử nghiệm
- Kế hoạch tương lai bao gồm gói PyPi với phần mở rộng dựng sẵn, hỗ trợ LoRA, web UI mẫu, web server và thêm nhiều sampler hơn
1 bình luận
Ý kiến Hacker News