ExLlamaV2: Thư viện suy luận nhanh để chạy LLM cục bộ trên GPU phổ thông

(github.com/turboderp)

3 điểm bởi GN⁺ 2023-09-14 | 1 bình luận | Chia sẻ qua WhatsApp

Thư viện suy luận được thiết kế để chạy LLM cục bộ trên các GPU như 3090/4090
Đây là bản phát hành ban đầu, mã nguồn hiện vẫn đang trong giai đoạn thử nghiệm và một số tính năng quan trọng vẫn chưa được triển khai
So với V1, ExLlamaV2 nhanh hơn, có kernel tốt hơn, codebase gọn gàng và đa dạng hơn, đồng thời hỗ trợ các định dạng lượng tử hóa mới
Phụ thuộc vào phần mở rộng Torch C++ cho các hàm CUDA, được biên dịch khi chạy. Lần đầu sử dụng thư viện sẽ mất 10-20 giây, nhưng phần mở rộng sẽ được lưu cache cho các lần dùng sau
Hỗ trợ cùng các mô hình GPTQ 4-bit như V1, đồng thời cũng hỗ trợ định dạng mới "EXL2" cho phép trộn các mức lượng tử hóa trong cùng một mô hình để đạt bitrate trung bình từ 2-bit đến 8-bit
Việc chọn tham số cho lượng tử hóa được thực hiện tự động, và có cung cấp script để lượng tử hóa mô hình
Cũng đề cập rằng một số mô hình lượng tử hóa EXL2 đã được tải lên HuggingFace để người dùng có thể thử nghiệm
Kế hoạch tương lai bao gồm gói PyPi với phần mở rộng dựng sẵn, hỗ trợ LoRA, web UI mẫu, web server và thêm nhiều sampler hơn

1 bình luận

GN⁺ 2023-09-14

Ý kiến Hacker News

Bài viết thảo luận về Exllamav2, một thư viện suy luận mới cho phép chạy các mô hình ngôn ngữ (LLMs) trên GPU tiêu dùng.
Đây có thể là thời điểm đầu tiên các LLM cỡ lớn có thể chạy trên GPU tiêu dùng với tốc độ cạnh tranh, thậm chí có khả năng vượt GPT-3.5-turbo hoặc GPT-4.
Thư viện sử dụng một phương pháp độc đáo để lượng tử hóa các tầng hoặc mô-đun khác nhau nhằm giảm thiểu perplexity trong khi tinh chỉnh các tham số.
Có sự quan tâm đến việc so sánh hiệu năng giữa các GPU như 3090 và 4090, cũng như cách chúng xử lý các mô hình khác nhau.
Bài viết cũng đề cập đến việc bổ sung hỗ trợ ROCm ở giai đoạn đầu, làm dấy lên tò mò về việc RTX4090/3090 sẽ so sánh thế nào với dòng 7900.
Độc giả quan tâm đến các so sánh về tốc độ và cách các mô hình lớn hoạt động trên phần cứng cao cấp như các card Nvidia đầu bảng.
Có câu hỏi về hiệu năng của các mô hình cần nhiều card để có thể chạy trong bộ nhớ.
Bài viết đã khơi mào thảo luận về bản phát hành trong subreddit "Local LLaMA".
Độc giả tò mò về tác động của việc thu nhỏ mô hình xuống độ rộng bit đơn lẻ, và liệu chúng vẫn hoạt động hay chỉ tạo ra nội dung lảm nhảm.
Có câu hỏi về chi phí của ELX2 và các benchmark perplexity, cùng với một số phàn nàn về việc Facebook làm llama v2 thành 70B thay vì 65B.
Độc giả đang tìm thêm thông tin về lượng tử hóa EXL2/GPTQ, vì đây có vẻ là nguyên nhân chính tạo ra cải thiện về tốc độ trên mô hình này.
Có những so sánh giữa "70B Llama 2" và ChatGPT 3.5/4.0, cùng các câu hỏi về hiệu năng tương đối của chúng.

ExLlamaV2: Thư viện suy luận nhanh để chạy LLM cục bộ trên GPU phổ thông

Bài viết liên quan

1 bình luận

Ý kiến Hacker News