LLaMA: Phiên bản INT8

xguru · 2023-03-10T11:02:01+09:00

Một phiên bản fork giúp có thể chạy LLaMA-13B của Meta chỉ với 24 GiB RAM Tức là có thể vận hành chỉ bằng một chiếc RTX4090/3090 Về mặt lý thuyết, có thể vận hành LLaMA-65B trên một chiếc A100 80GB Các thay đổi Loại bỏ cấu trúc xử lý song song Định lượng hóa các weights trên máy chủ Tải dần các weights để tránh vấn đề bộ nhớ Sử dụng bitsandbytes và tqdm Thiết lập hình phạt lặp lại (mặc định 1.15) Trên máy Ubuntu với RTX4090 + 64GB, mất khoảng 25 giây để tải mô hình và định lượng hóa

(github.com/tloen)

8 điểm bởi xguru 2023-03-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Một phiên bản fork giúp có thể chạy LLaMA-13B của Meta chỉ với 24 GiB RAM
- Tức là có thể vận hành chỉ bằng một chiếc RTX4090/3090
Về mặt lý thuyết, có thể vận hành LLaMA-65B trên một chiếc A100 80GB
Các thay đổi
- Loại bỏ cấu trúc xử lý song song
- Định lượng hóa các weights trên máy chủ
- Tải dần các weights để tránh vấn đề bộ nhớ
- Sử dụng bitsandbytes và tqdm
- Thiết lập hình phạt lặp lại (mặc định 1.15)
Trên máy Ubuntu với RTX4090 + 64GB, mất khoảng 25 giây để tải mô hình và định lượng hóa

LLaMA: Phiên bản INT8

Bài viết liên quan

Chưa có bình luận nào.