llama.cpp - Suy luận mô hình LLaMA của Facebook bằng C/C++ thuần túy
(github.com/ggerganov)- Mục tiêu là chạy mô hình LLaMA với lượng tử hóa 4-bit trên MacBook
- Triển khai bằng C/C++ thuần túy, không phụ thuộc thư viện
- Tối ưu hóa cho Arm Neon/khung Accelerate (Apple Silicon)
- Hỗ trợ AVX2 cho x86
- Độ chính xác hỗn hợp F16/F32
- Hỗ trợ lượng tử hóa 4-bit
- Chạy trên CPU
- Hiện chỉ hỗ trợ Mac/Linux. Sẽ hỗ trợ Windows trong thời gian tới
1 bình luận
Mình đã thử chạy bản 7B, và nó hoạt động tốt hơn mình nghĩ.