FlexGen - Vận hành LLM như ChatGPT trên một GPU đơn
(github.com/FMInference)- Công cụ suy luận sinh nội dung hiệu năng cao để vận hành LLM trong môi trường GPU hạn chế như 16GB T4 / 24GB RTX3090
- Có thể vận hành mô hình 175B trên một GPU đơn nhờ cơ chế offloading cực nhanh, lên tới khoảng 100 lần
- Nén tối đa tham số và attention cache (giảm xuống tới 4-bit với mức mất độ chính xác gần như không đáng kể)
- Có thể dễ dàng mở rộng khi bổ sung thêm GPU nhờ runtime song song phân tán
Chưa có bình luận nào.