Bổ sung tăng tốc CUDA GPU toàn phần cho llama.cpp
(github.com/ggerganov)- PR bổ sung tăng tốc GPU cho tất cả các tensor ggml còn lại
- Trên RTX 3090, xử lý prompt nhanh gấp 2 lần, còn sinh token được tăng tốc khoảng 1,3~1,8 lần
- Với mẫu 7B q4 trên cấu hình 4090+i9, tốc độ sinh đạt 109 token/giây
Chưa có bình luận nào.