FlexGen - Vận hành LLM như ChatGPT trên một GPU đơn

xguru · 2023-02-22T10:16:02+09:00

Công cụ suy luận sinh nội dung hiệu năng cao để vận hành LLM trong môi trường GPU hạn chế như 16GB T4 / 24GB RTX3090 Có thể vận hành mô hình 175B trên một GPU đơn nhờ cơ chế offloading cực nhanh, lên tới khoảng 100 lần Nén tối đa tham số và attention cache (giảm xuống tới 4-bit với mức mất độ chính xác gần như không đáng kể) Có thể dễ dàng mở rộng khi bổ sung thêm GPU nhờ runtime song song phân tán

(github.com/FMInference)

14 điểm bởi xguru 2023-02-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Công cụ suy luận sinh nội dung hiệu năng cao để vận hành LLM trong môi trường GPU hạn chế như 16GB T4 / 24GB RTX3090
Có thể vận hành mô hình 175B trên một GPU đơn nhờ cơ chế offloading cực nhanh, lên tới khoảng 100 lần
Nén tối đa tham số và attention cache (giảm xuống tới 4-bit với mức mất độ chính xác gần như không đáng kể)
Có thể dễ dàng mở rộng khi bổ sung thêm GPU nhờ runtime song song phân tán

FlexGen - Vận hành LLM như ChatGPT trên một GPU đơn

Bài viết liên quan

Chưa có bình luận nào.