LLaMA: Phiên bản INT8
(github.com/tloen)- Một phiên bản fork giúp có thể chạy LLaMA-13B của Meta chỉ với 24 GiB RAM
- Tức là có thể vận hành chỉ bằng một chiếc RTX4090/3090
- Về mặt lý thuyết, có thể vận hành LLaMA-65B trên một chiếc A100 80GB
- Các thay đổi
- Loại bỏ cấu trúc xử lý song song
- Định lượng hóa các weights trên máy chủ
- Tải dần các weights để tránh vấn đề bộ nhớ
- Sử dụng
bitsandbytesvàtqdm - Thiết lập hình phạt lặp lại (mặc định 1.15)
- Trên máy Ubuntu với RTX4090 + 64GB, mất khoảng 25 giây để tải mô hình và định lượng hóa
Chưa có bình luận nào.