Mistral AI ra mắt mô hình MOE 8x22B mới

(twitter.com/MistralAI)

1 điểm bởi GN⁺ 2024-04-12 | 1 bình luận | Chia sẻ qua WhatsApp

1 bình luận

GN⁺ 2024-04-12

Ý kiến trên Hacker News

Tò mò cách dễ nhất để chạy mô hình này khi đã có trọng số và phần cứng
Dù có offload một nửa mô hình sang RAM thì cũng muốn biết nên dùng công cụ nào để tải, Ollama, Llama.cpp, hay chỉ cần đưa vào một thư viện Python là được
Cũng muốn biết nếu muốn so sánh với mô hình khác thì nên benchmark thế nào, có công cụ dùng ngay được không
- Cách dùng llamafile có vẻ tốt nhất
  Binary chạy từ dòng lệnh hoặc dựng một web server nhỏ
  llamafile có cung cấp bản build Mixtral-8x7B-Instruct, nên mô hình này có lẽ cũng có thể được đóng gói, và khả năng là ở định dạng lượng tử hóa
  Cần ai đó hiểu rõ hệ sinh thái hơn xác nhận, nhưng có vẻ mô hình mới cũng có thể chạy nguyên như vậy trong llamafile
  https://github.com/Mozilla-Ocho/llamafile
- Cách dễ nhất là chạy bằng vllm(https://github.com/vllm-project/vllm) trên khoảng hai chiếc A100, còn benchmark thì có thể dùng lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
- Để thử LLM trên MacBook thì LM Studio rất tuyệt: https://lmstudio.ai/
  Trong ứng dụng rất dễ tìm các mô hình mới trên Hugging Face và thử ngay
- Trên Hugging Face có một người dùng tên The Bloke, thường đăng các mô hình đã lượng tử hóa sẵn không lâu sau khi mô hình kích thước đầy đủ xuất hiện
  Chỉ cần theo dõi trang đó và cầu cho bản 4-bit nhét vừa GPU là được
  Có lẽ họ đã đang làm rồi
- Có thể thử trên Together ở đây:
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Bài trùng ở đây: https://news.ycombinator.com/item?id=39986047
Bài đó dùng link tweet thay vì hồ sơ:
https://twitter.com/MistralAI/status/1777869263778291896
8x22B cơ à, nếu nó tốt như Mixtral 8x7B thì đây sẽ là giai đoạn thật sự thú vị
- Nghe nói Command R là mã nguồn mở đầu tiên vượt GPT-4 trên benchmark
- Đã có 8x7B rồi thì chẳng có lý do gì lại muốn thêm một 8x7B khác, vậy chắc nghĩa là nó tốt hơn nhỉ?
Hơi lạc đề một chút, nhưng không biết giờ đã quay lại được mức hiệu năng ChatGPT 4 thời mọi người còn gọi là như phép thuật chưa
Ý là mốc trước khi hiệu năng giảm mạnh vì bị làm cho đúng đắn chính trị hơn
- Tôi đã thử nhiều LLM trên MacBook, và theo tôi thì chúng vẫn còn kém xa GPT-4 ở bất kỳ thời điểm nào
  Tuy vậy có nhiều mô hình ở mức GPT-3, và cũng có khá nhiều mô hình được tinh chỉnh cho các tác vụ cụ thể
  Phần còn thiếu lớn ở các mô hình mở là hỗ trợ ngôn ngữ
  Tôi chỉ thấy một mô hình cho ra kết quả dùng được bằng tiếng Na Uy, còn với GPT-4 thì điều đó chưa bao giờ là vấn đề
- Theo tiêu chuẩn mô hình mở thì tôi nghĩ ít nhất đã đạt tới hiệu năng của bản phát hành ChatGPT 4 ban đầu
Đây có phải là cuộc đua để mỗi bên tung ra mô hình nhỏ tốt nhất của mình trước khi Llama 3 ra mắt không?
- 262GB thì khó gọi là nhỏ
  Dù vậy có vẻ mọi người đang tung ra lúc này, vì nếu kết quả kém hơn Llama 3 thì sau này công bố sẽ khá ngượng
- Nếu tin đồn Llama 3 sẽ ra trong vòng 2 tuần tới là đúng thì nghe khá hợp lý
Mixtral 8x7B dùng khá ổn, nên tôi rất mong được thử mô hình này
Benchmark không chính thức ở đây:
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- Ước gì có GPT-4 trong đó
  Đó vẫn là mục tiêu cần vượt qua
Lượng tử hóa 4-bit có vẻ sẽ cần 85GB VRAM, nên sẽ vừa đẹp trong 4 GPU tiêu dùng 24GB và vẫn còn một chút dư cho tối ưu KV cache
- Nếu là 4-bit thì có thể dùng ít hơn con số này
  Vì có khá nhiều tham số được chia sẻ giữa các mô hình chuyên gia
  Tuy nhiên nếu không chạy với batch size 1 thì có thể sẽ khổ hơn cấu hình 8 GPU
  Gần như chắc chắn phần lớn hoặc toàn bộ các chuyên gia sẽ được kích hoạt trong batch
- Lượng tử hóa 2-bit của Mixtral 8x7B vẫn dùng được cho một số mục đích trên GPU 8GB
  Tò mò mô hình mới này sẽ chạy thế nào trên cấu hình GPU giá rẻ tầm 8–16GB
Điều rất quan trọng là đây là mô hình nền tảng, không phải mô hình dạng instruction
Thứ hữu ích cho chat là mô hình đã được fine-tune theo instruction
- Tò mò cảm giác khi tự dùng một mô hình nền tảng mạnh sẽ như thế nào
  Có phải chỉ là hoàn thành tiếp phần văn bản prompt như đang viết tiếp không?
Ra đúng thời điểm Llama 3 được công bố
- Cùng ngày đó Google Gemini Pro gần như đưa ra cách tiếp cận multimodal ngữ cảnh dài mở hoàn toàn, còn OpenAI cũng nâng cấp GPT-4-Turbo, nên đó là một ngày tin tức dồn dập

Mistral AI ra mắt mô hình MOE 8x22B mới

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News