Bổ sung tăng tốc CUDA GPU toàn phần cho llama.cpp

xguru · 2023-06-14T10:46:02+09:00

PR bổ sung tăng tốc GPU cho tất cả các tensor ggml còn lại Trên RTX 3090, xử lý prompt nhanh gấp 2 lần, còn sinh token được tăng tốc khoảng 1,3~1,8 lần Với mẫu 7B q4 trên cấu hình 4090+i9, tốc độ sinh đạt 109 token/giây

(github.com/ggerganov)

8 điểm bởi xguru 2023-06-14 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

PR bổ sung tăng tốc GPU cho tất cả các tensor ggml còn lại
Trên RTX 3090, xử lý prompt nhanh gấp 2 lần, còn sinh token được tăng tốc khoảng 1,3~1,8 lần
Với mẫu 7B q4 trên cấu hình 4090+i9, tốc độ sinh đạt 109 token/giây

Bổ sung tăng tốc CUDA GPU toàn phần cho llama.cpp

Bài viết liên quan

Chưa có bình luận nào.