llama.cpp - Suy luận mô hình LLaMA của Facebook bằng C/C++ thuần túy

xguru · 2023-03-13T11:26:01+09:00

Mục tiêu là chạy mô hình LLaMA với lượng tử hóa 4-bit trên MacBook Triển khai bằng C/C++ thuần túy, không phụ thuộc thư viện Tối ưu hóa cho Arm Neon/khung Accelerate (Apple Silicon) Hỗ trợ AVX2 cho x86 Độ chính xác hỗn hợp F16/F32 Hỗ trợ lượng tử hóa 4-bit Chạy trên CPU Hiện chỉ hỗ trợ Mac/Linux. Sẽ hỗ trợ Windows trong thời gian tới

(github.com/ggerganov)

16 điểm bởi xguru 2023-03-13 | 1 bình luận | Chia sẻ qua WhatsApp

Mục tiêu là chạy mô hình LLaMA với lượng tử hóa 4-bit trên MacBook
Triển khai bằng C/C++ thuần túy, không phụ thuộc thư viện
Tối ưu hóa cho Arm Neon/khung Accelerate (Apple Silicon)
Hỗ trợ AVX2 cho x86
Độ chính xác hỗn hợp F16/F32
Hỗ trợ lượng tử hóa 4-bit
Chạy trên CPU
Hiện chỉ hỗ trợ Mac/Linux. Sẽ hỗ trợ Windows trong thời gian tới

1 bình luận

laeyoung 2023-03-14

Mình đã thử chạy bản 7B, và nó hoạt động tốt hơn mình nghĩ.

llama.cpp - Suy luận mô hình LLaMA của Facebook bằng C/C++ thuần túy

Bài viết liên quan

1 bình luận