LLaMA-CPU - Bản fork chạy LLaMA trên CPU
(github.com/markasoftware)- Chạy mô hình LLaMA của Meta trên CPU
- Cách thiết lập gần như tương tự
- Khi thử nghiệm với mô hình 7B, để tải mô hình cần cả swap/zram ngay cả trên máy có 32GiB RAM
- Khi suy luận thực tế, chỉ sử dụng khoảng dưới 20GiB RAM
- Trên Ryzen 7900X, mô hình 7B có thể suy luận được vài từ mỗi giây
Chưa có bình luận nào.