16 điểm bởi xguru 2023-03-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mục tiêu là chạy mô hình LLaMA với lượng tử hóa 4-bit trên MacBook
  • Triển khai bằng C/C++ thuần túy, không phụ thuộc thư viện
  • Tối ưu hóa cho Arm Neon/khung Accelerate (Apple Silicon)
  • Hỗ trợ AVX2 cho x86
  • Độ chính xác hỗn hợp F16/F32
  • Hỗ trợ lượng tử hóa 4-bit
  • Chạy trên CPU
  • Hiện chỉ hỗ trợ Mac/Linux. Sẽ hỗ trợ Windows trong thời gian tới

1 bình luận

 
laeyoung 2023-03-14

Mình đã thử chạy bản 7B, và nó hoạt động tốt hơn mình nghĩ.