SlowLlama - Fine-tune Llama2-70b và CodeLlama trên M1/M2 mà không cần lượng tử hóa
(github.com/okuvshynov)- Fine-tune các mô hình như Llama2-70B trên Apple M1/M2 và GPU nVidia dành cho người tiêu dùng
- Thay vì sử dụng lượng tử hóa (quantization), công cụ này offload một phần của mô hình sang SSD hoặc bộ nhớ chính trong cả forward/backward pass
- Phiên bản hiện tại giới hạn việc cập nhật vào một tập tham số nhỏ hơn bằng cách sử dụng LoRA
- Phiên bản đầu tiên cũng hỗ trợ fine-tune toàn phần, nhưng hiện đã bị loại bỏ
Chưa có bình luận nào.