SlowLlama - Fine-tune Llama2-70b và CodeLlama trên M1/M2 mà không cần lượng tử hóa

xguru · 2023-10-09T10:32:01+09:00

Fine-tune các mô hình như Llama2-70B trên Apple M1/M2 và GPU nVidia dành cho người tiêu dùng Thay vì sử dụng lượng tử hóa (quantization), công cụ này offload một phần của mô hình sang SSD hoặc bộ nhớ chính trong cả forward/backward pass Phiên bản hiện tại giới hạn việc cập nhật vào một tập tham số nhỏ hơn bằng cách sử dụng LoRA Phiên bản đầu tiên cũng hỗ trợ fine-tune toàn phần, nhưng hiện đã bị loại bỏ

(github.com/okuvshynov)

9 điểm bởi xguru 2023-10-09 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Fine-tune các mô hình như Llama2-70B trên Apple M1/M2 và GPU nVidia dành cho người tiêu dùng
Thay vì sử dụng lượng tử hóa (quantization), công cụ này offload một phần của mô hình sang SSD hoặc bộ nhớ chính trong cả forward/backward pass
Phiên bản hiện tại giới hạn việc cập nhật vào một tập tham số nhỏ hơn bằng cách sử dụng LoRA
- Phiên bản đầu tiên cũng hỗ trợ fine-tune toàn phần, nhưng hiện đã bị loại bỏ

SlowLlama - Fine-tune Llama2-70b và CodeLlama trên M1/M2 mà không cần lượng tử hóa

Bài viết liên quan

Chưa có bình luận nào.