glhf - Chạy (gần như) mọi mô hình ngôn ngữ
(glhf.chat)- Chạy gần như mọi mô hình ngôn ngữ lớn mã nguồn mở bằng vLLM và bộ lập lịch GPU tự động co giãn tự xây dựng
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, v.v.
- Hoạt động chỉ bằng cách dán liên kết repository Hugging Face mà không cần cấu hình đặc biệt: mọi repo full-weight và AWQ 4-bit
- Có thể sử dụng tối đa 8 GPU Nvidia A100 80Gb
- Miễn phí trong thời gian beta. Ngay cả sau khi beta kết thúc, dịch vụ vẫn hoạt động theo mô hình đa thuê nên sẽ có giá tốt hơn GPU cloud của các nhà cung cấp lớn
2 bình luận
Tôi đang định thử dùng llama 405b, nhưng thấy nó nhanh và chất lượng cũng tốt.
vLLM: Phục vụ LLM dễ dàng, nhanh và rẻ bằng PagedAttention