Tò mò cách dễ nhất để chạy mô hình này khi đã có trọng số và phần cứng
Dù có offload một nửa mô hình sang RAM thì cũng muốn biết nên dùng công cụ nào để tải, Ollama, Llama.cpp, hay chỉ cần đưa vào một thư viện Python là được
Cũng muốn biết nếu muốn so sánh với mô hình khác thì nên benchmark thế nào, có công cụ dùng ngay được không
Cách dùng llamafile có vẻ tốt nhất
Binary chạy từ dòng lệnh hoặc dựng một web server nhỏ
llamafile có cung cấp bản build Mixtral-8x7B-Instruct, nên mô hình này có lẽ cũng có thể được đóng gói, và khả năng là ở định dạng lượng tử hóa
Cần ai đó hiểu rõ hệ sinh thái hơn xác nhận, nhưng có vẻ mô hình mới cũng có thể chạy nguyên như vậy trong llamafile https://github.com/Mozilla-Ocho/llamafile
Để thử LLM trên MacBook thì LM Studio rất tuyệt: https://lmstudio.ai/
Trong ứng dụng rất dễ tìm các mô hình mới trên Hugging Face và thử ngay
Trên Hugging Face có một người dùng tên The Bloke, thường đăng các mô hình đã lượng tử hóa sẵn không lâu sau khi mô hình kích thước đầy đủ xuất hiện
Chỉ cần theo dõi trang đó và cầu cho bản 4-bit nhét vừa GPU là được
Có lẽ họ đã đang làm rồi
8x22B cơ à, nếu nó tốt như Mixtral 8x7B thì đây sẽ là giai đoạn thật sự thú vị
Nghe nói Command R là mã nguồn mở đầu tiên vượt GPT-4 trên benchmark
Đã có 8x7B rồi thì chẳng có lý do gì lại muốn thêm một 8x7B khác, vậy chắc nghĩa là nó tốt hơn nhỉ?
Hơi lạc đề một chút, nhưng không biết giờ đã quay lại được mức hiệu năng ChatGPT 4 thời mọi người còn gọi là như phép thuật chưa
Ý là mốc trước khi hiệu năng giảm mạnh vì bị làm cho đúng đắn chính trị hơn
Tôi đã thử nhiều LLM trên MacBook, và theo tôi thì chúng vẫn còn kém xa GPT-4 ở bất kỳ thời điểm nào
Tuy vậy có nhiều mô hình ở mức GPT-3, và cũng có khá nhiều mô hình được tinh chỉnh cho các tác vụ cụ thể
Phần còn thiếu lớn ở các mô hình mở là hỗ trợ ngôn ngữ
Tôi chỉ thấy một mô hình cho ra kết quả dùng được bằng tiếng Na Uy, còn với GPT-4 thì điều đó chưa bao giờ là vấn đề
Theo tiêu chuẩn mô hình mở thì tôi nghĩ ít nhất đã đạt tới hiệu năng của bản phát hành ChatGPT 4 ban đầu
Đây có phải là cuộc đua để mỗi bên tung ra mô hình nhỏ tốt nhất của mình trước khi Llama 3 ra mắt không?
262GB thì khó gọi là nhỏ
Dù vậy có vẻ mọi người đang tung ra lúc này, vì nếu kết quả kém hơn Llama 3 thì sau này công bố sẽ khá ngượng
Nếu tin đồn Llama 3 sẽ ra trong vòng 2 tuần tới là đúng thì nghe khá hợp lý
Mixtral 8x7B dùng khá ổn, nên tôi rất mong được thử mô hình này
Ước gì có GPT-4 trong đó
Đó vẫn là mục tiêu cần vượt qua
Lượng tử hóa 4-bit có vẻ sẽ cần 85GB VRAM, nên sẽ vừa đẹp trong 4 GPU tiêu dùng 24GB và vẫn còn một chút dư cho tối ưu KV cache
Nếu là 4-bit thì có thể dùng ít hơn con số này
Vì có khá nhiều tham số được chia sẻ giữa các mô hình chuyên gia
Tuy nhiên nếu không chạy với batch size 1 thì có thể sẽ khổ hơn cấu hình 8 GPU
Gần như chắc chắn phần lớn hoặc toàn bộ các chuyên gia sẽ được kích hoạt trong batch
Lượng tử hóa 2-bit của Mixtral 8x7B vẫn dùng được cho một số mục đích trên GPU 8GB
Tò mò mô hình mới này sẽ chạy thế nào trên cấu hình GPU giá rẻ tầm 8–16GB
Điều rất quan trọng là đây là mô hình nền tảng, không phải mô hình dạng instruction
Thứ hữu ích cho chat là mô hình đã được fine-tune theo instruction
Tò mò cảm giác khi tự dùng một mô hình nền tảng mạnh sẽ như thế nào
Có phải chỉ là hoàn thành tiếp phần văn bản prompt như đang viết tiếp không?
Ra đúng thời điểm Llama 3 được công bố
Cùng ngày đó Google Gemini Pro gần như đưa ra cách tiếp cận multimodal ngữ cảnh dài mở hoàn toàn, còn OpenAI cũng nâng cấp GPT-4-Turbo, nên đó là một ngày tin tức dồn dập
1 bình luận
Ý kiến trên Hacker News
Dù có offload một nửa mô hình sang RAM thì cũng muốn biết nên dùng công cụ nào để tải, Ollama, Llama.cpp, hay chỉ cần đưa vào một thư viện Python là được
Cũng muốn biết nếu muốn so sánh với mô hình khác thì nên benchmark thế nào, có công cụ dùng ngay được không
Binary chạy từ dòng lệnh hoặc dựng một web server nhỏ
llamafile có cung cấp bản build Mixtral-8x7B-Instruct, nên mô hình này có lẽ cũng có thể được đóng gói, và khả năng là ở định dạng lượng tử hóa
Cần ai đó hiểu rõ hệ sinh thái hơn xác nhận, nhưng có vẻ mô hình mới cũng có thể chạy nguyên như vậy trong llamafile
https://github.com/Mozilla-Ocho/llamafile
Trong ứng dụng rất dễ tìm các mô hình mới trên Hugging Face và thử ngay
Chỉ cần theo dõi trang đó và cầu cho bản 4-bit nhét vừa GPU là được
Có lẽ họ đã đang làm rồi
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
Bài đó dùng link tweet thay vì hồ sơ:
https://twitter.com/MistralAI/status/1777869263778291896
Ý là mốc trước khi hiệu năng giảm mạnh vì bị làm cho đúng đắn chính trị hơn
Tuy vậy có nhiều mô hình ở mức GPT-3, và cũng có khá nhiều mô hình được tinh chỉnh cho các tác vụ cụ thể
Phần còn thiếu lớn ở các mô hình mở là hỗ trợ ngôn ngữ
Tôi chỉ thấy một mô hình cho ra kết quả dùng được bằng tiếng Na Uy, còn với GPT-4 thì điều đó chưa bao giờ là vấn đề
Dù vậy có vẻ mọi người đang tung ra lúc này, vì nếu kết quả kém hơn Llama 3 thì sau này công bố sẽ khá ngượng
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
Đó vẫn là mục tiêu cần vượt qua
Vì có khá nhiều tham số được chia sẻ giữa các mô hình chuyên gia
Tuy nhiên nếu không chạy với batch size 1 thì có thể sẽ khổ hơn cấu hình 8 GPU
Gần như chắc chắn phần lớn hoặc toàn bộ các chuyên gia sẽ được kích hoạt trong batch
Tò mò mô hình mới này sẽ chạy thế nào trên cấu hình GPU giá rẻ tầm 8–16GB
Thứ hữu ích cho chat là mô hình đã được fine-tune theo instruction
Có phải chỉ là hoàn thành tiếp phần văn bản prompt như đang viết tiếp không?