glhf - Chạy (gần như) mọi mô hình ngôn ngữ

xguru · 2024-07-29T10:06:01+09:00

Chạy gần như mọi mô hình ngôn ngữ lớn mã nguồn mở bằng vLLM và bộ lập lịch GPU tự động co giãn tự xây dựng Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, v.v. Hoạt động chỉ bằng cách dán liên kết repository Hugging Face mà không cần cấu hình đặc biệt: mọi repo full-weight và AWQ 4-bit Có thể sử dụng tối đa 8 GPU Nvidia A100 80Gb Miễn phí trong thời gian beta. Ngay cả sau khi beta kết thúc, dịch vụ vẫn hoạt động theo mô hình đa thuê nên sẽ có giá tốt hơn GPU cloud của các nhà cung cấp lớn

(glhf.chat)

5 điểm bởi xguru 2024-07-29 | 2 bình luận | Chia sẻ qua WhatsApp

Chạy gần như mọi mô hình ngôn ngữ lớn mã nguồn mở bằng vLLM và bộ lập lịch GPU tự động co giãn tự xây dựng
- Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, v.v.
Hoạt động chỉ bằng cách dán liên kết repository Hugging Face mà không cần cấu hình đặc biệt: mọi repo full-weight và AWQ 4-bit
Có thể sử dụng tối đa 8 GPU Nvidia A100 80Gb
Miễn phí trong thời gian beta. Ngay cả sau khi beta kết thúc, dịch vụ vẫn hoạt động theo mô hình đa thuê nên sẽ có giá tốt hơn GPU cloud của các nhà cung cấp lớn

2 bình luận

wedding 2024-07-30

Tôi đang định thử dùng llama 405b, nhưng thấy nó nhanh và chất lượng cũng tốt.

xguru 2024-07-29

vLLM: Phục vụ LLM dễ dàng, nhanh và rẻ bằng PagedAttention

glhf - Chạy (gần như) mọi mô hình ngôn ngữ

Bài viết liên quan

2 bình luận