PowerInfer - Phục vụ LLM nhanh bằng GPU tiêu dùng

xguru · 2023-12-21T10:51:02+09:00

Khi chạy Falcon(ReLU)-40B-FP16 trên RTX 4090 (24G), nhanh hơn llama.cpp 11 lần Công cụ suy luận LLM lai CPU/GPU tận dụng Activation Locality của thiết bị Phân biệt các hot neuron được kích hoạt nhất quán và phần lớn cold neuron thay đổi tùy theo đầu vào Hot neuron được nạp sẵn lên GPU để kích hoạt nhanh, còn cold neuron được tính toán trên CPU, qua đó giảm mạnh yêu cầu bộ nhớ GPU và lượng truyền dữ liệu giữa CPU-GPU Tích hợp bộ dự đoán thích ứng và toán tử thưa nhận biết neuron để tối ưu hiệu quả của kích hoạt neuron và độ thưa trong tính toán Trên một GPU NVIDIA RTX 4090 duy nhất, đạt tốc độ sinh token trung bình 13,20 token/giây và tối đa 29,08 token/giây trên nhiều LLM khác nhau (bao gồm OPT-175B) Đây chỉ thấp hơn 18% so với mức mà GPU máy chủ cao cấp A100 đạt được Trong khi vẫn giữ nguyên độ chính xác của mô hình, hiệu năng vượt trội llama.cpp tới 11,69 lần

(github.com/SJTU-IPADS)

16 điểm bởi xguru 2023-12-21 | 1 bình luận | Chia sẻ qua WhatsApp

Khi chạy Falcon(ReLU)-40B-FP16 trên RTX 4090 (24G), nhanh hơn llama.cpp 11 lần
Công cụ suy luận LLM lai CPU/GPU tận dụng Activation Locality của thiết bị
- Phân biệt các hot neuron được kích hoạt nhất quán và phần lớn cold neuron thay đổi tùy theo đầu vào
- Hot neuron được nạp sẵn lên GPU để kích hoạt nhanh, còn cold neuron được tính toán trên CPU, qua đó giảm mạnh yêu cầu bộ nhớ GPU và lượng truyền dữ liệu giữa CPU-GPU
Tích hợp bộ dự đoán thích ứng và toán tử thưa nhận biết neuron để tối ưu hiệu quả của kích hoạt neuron và độ thưa trong tính toán
Trên một GPU NVIDIA RTX 4090 duy nhất, đạt tốc độ sinh token trung bình 13,20 token/giây và tối đa 29,08 token/giây trên nhiều LLM khác nhau (bao gồm OPT-175B)
- Đây chỉ thấp hơn 18% so với mức mà GPU máy chủ cao cấp A100 đạt được
- Trong khi vẫn giữ nguyên độ chính xác của mô hình, hiệu năng vượt trội llama.cpp tới 11,69 lần

1 bình luận

cosine20 2023-12-28

RTX 4090 đúng là GPU dành cho người tiêu dùng thật đấy nhỉ haha.....

PowerInfer - Phục vụ LLM nhanh bằng GPU tiêu dùng

Bài viết liên quan

1 bình luận