5 điểm bởi xguru 2024-07-29 | 2 bình luận | Chia sẻ qua WhatsApp
  • Chạy gần như mọi mô hình ngôn ngữ lớn mã nguồn mở bằng vLLM và bộ lập lịch GPU tự động co giãn tự xây dựng
    • Llama 3.1 405b, Qwen 2 72b, Gemma 2 27b, Phi-3, v.v.
  • Hoạt động chỉ bằng cách dán liên kết repository Hugging Face mà không cần cấu hình đặc biệt: mọi repo full-weight và AWQ 4-bit
  • Có thể sử dụng tối đa 8 GPU Nvidia A100 80Gb
  • Miễn phí trong thời gian beta. Ngay cả sau khi beta kết thúc, dịch vụ vẫn hoạt động theo mô hình đa thuê nên sẽ có giá tốt hơn GPU cloud của các nhà cung cấp lớn

2 bình luận

 
wedding 2024-07-30

Tôi đang định thử dùng llama 405b, nhưng thấy nó nhanh và chất lượng cũng tốt.