Có thể dùng các công cụ như Ollama, Llama.cpp hoặc thư viện Python để chạy mô hình. Cũng có thể nạp khoảng một nửa mô hình vào RAM.
Để so sánh hiệu năng mô hình, có thể dùng benchmark không chính thức do Hugging Face cung cấp. Tuy nhiên, cần lưu ý rằng đây là dành cho mô hình base và có khác biệt so với mô hình instruct đã được fine-tune dùng trong chat thực tế.
Nếu mô hình Mixtral-8x22B-v0.1 cho hiệu năng tốt như mẫu Mixtral 8x7b trước đó thì đây sẽ là một mô hình rất đáng kỳ vọng.
Có sự quan tâm về việc liệu hiệu năng có thể quay lại mức mà ChatGPT 4 từng được đánh giá là "hoạt động như phép màu" trong giai đoạn đầu hay không. Cũng có sự tiếc nuối rằng hiệu năng đã bị giảm vì tính đúng đắn chính trị.
Có vẻ như trước khi Llama3 ra mắt, mọi bên đều đang cạnh tranh để tung ra mô hình nhỏ tốt nhất.
Với lượng tử hóa 4-bit, cần 85GB VRAM, nên có thể chạy đủ trên 4 GPU tiêu dùng 24G. Cũng vẫn còn dư không gian để tối ưu KV cache.
Dù trọng số mô hình đã được công khai hơn một ngày, việc Mistral chưa có thông báo chính thức hay model card, đồng thời cũng chưa thể dùng trên chính nền tảng của Mistral, là điều khá lạ.
1 bình luận
Ý kiến trên Hacker News