1 điểm bởi GN⁺ 2024-04-12 | 1 bình luận | Chia sẻ qua WhatsApp

1 bình luận

 
GN⁺ 2024-04-12
Ý kiến trên Hacker News
  • Tò mò cách dễ nhất để chạy mô hình này khi đã có trọng số và phần cứng
    Dù có offload một nửa mô hình sang RAM thì cũng muốn biết nên dùng công cụ nào để tải, Ollama, Llama.cpp, hay chỉ cần đưa vào một thư viện Python là được
    Cũng muốn biết nếu muốn so sánh với mô hình khác thì nên benchmark thế nào, có công cụ dùng ngay được không
    • Cách dùng llamafile có vẻ tốt nhất
      Binary chạy từ dòng lệnh hoặc dựng một web server nhỏ
      llamafile có cung cấp bản build Mixtral-8x7B-Instruct, nên mô hình này có lẽ cũng có thể được đóng gói, và khả năng là ở định dạng lượng tử hóa
      Cần ai đó hiểu rõ hệ sinh thái hơn xác nhận, nhưng có vẻ mô hình mới cũng có thể chạy nguyên như vậy trong llamafile
      https://github.com/Mozilla-Ocho/llamafile
    • Cách dễ nhất là chạy bằng vllm(https://github.com/vllm-project/vllm) trên khoảng hai chiếc A100, còn benchmark thì có thể dùng lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
    • Để thử LLM trên MacBook thì LM Studio rất tuyệt: https://lmstudio.ai/
      Trong ứng dụng rất dễ tìm các mô hình mới trên Hugging Face và thử ngay
    • Trên Hugging Face có một người dùng tên The Bloke, thường đăng các mô hình đã lượng tử hóa sẵn không lâu sau khi mô hình kích thước đầy đủ xuất hiện
      Chỉ cần theo dõi trang đó và cầu cho bản 4-bit nhét vừa GPU là được
      Có lẽ họ đã đang làm rồi
    • Có thể thử trên Together ở đây:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • Bài trùng ở đây: https://news.ycombinator.com/item?id=39986047
    Bài đó dùng link tweet thay vì hồ sơ:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B cơ à, nếu nó tốt như Mixtral 8x7B thì đây sẽ là giai đoạn thật sự thú vị
    • Nghe nói Command R là mã nguồn mở đầu tiên vượt GPT-4 trên benchmark
    • Đã có 8x7B rồi thì chẳng có lý do gì lại muốn thêm một 8x7B khác, vậy chắc nghĩa là nó tốt hơn nhỉ?
  • Hơi lạc đề một chút, nhưng không biết giờ đã quay lại được mức hiệu năng ChatGPT 4 thời mọi người còn gọi là như phép thuật chưa
    Ý là mốc trước khi hiệu năng giảm mạnh vì bị làm cho đúng đắn chính trị hơn
    • Tôi đã thử nhiều LLM trên MacBook, và theo tôi thì chúng vẫn còn kém xa GPT-4 ở bất kỳ thời điểm nào
      Tuy vậy có nhiều mô hình ở mức GPT-3, và cũng có khá nhiều mô hình được tinh chỉnh cho các tác vụ cụ thể
      Phần còn thiếu lớn ở các mô hình mở là hỗ trợ ngôn ngữ
      Tôi chỉ thấy một mô hình cho ra kết quả dùng được bằng tiếng Na Uy, còn với GPT-4 thì điều đó chưa bao giờ là vấn đề
    • Theo tiêu chuẩn mô hình mở thì tôi nghĩ ít nhất đã đạt tới hiệu năng của bản phát hành ChatGPT 4 ban đầu
  • Đây có phải là cuộc đua để mỗi bên tung ra mô hình nhỏ tốt nhất của mình trước khi Llama 3 ra mắt không?
    • 262GB thì khó gọi là nhỏ
      Dù vậy có vẻ mọi người đang tung ra lúc này, vì nếu kết quả kém hơn Llama 3 thì sau này công bố sẽ khá ngượng
    • Nếu tin đồn Llama 3 sẽ ra trong vòng 2 tuần tới là đúng thì nghe khá hợp lý
  • Mixtral 8x7B dùng khá ổn, nên tôi rất mong được thử mô hình này
  • Benchmark không chính thức ở đây:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • Ước gì có GPT-4 trong đó
      Đó vẫn là mục tiêu cần vượt qua
  • Lượng tử hóa 4-bit có vẻ sẽ cần 85GB VRAM, nên sẽ vừa đẹp trong 4 GPU tiêu dùng 24GB và vẫn còn một chút dư cho tối ưu KV cache
    • Nếu là 4-bit thì có thể dùng ít hơn con số này
      Vì có khá nhiều tham số được chia sẻ giữa các mô hình chuyên gia
      Tuy nhiên nếu không chạy với batch size 1 thì có thể sẽ khổ hơn cấu hình 8 GPU
      Gần như chắc chắn phần lớn hoặc toàn bộ các chuyên gia sẽ được kích hoạt trong batch
    • Lượng tử hóa 2-bit của Mixtral 8x7B vẫn dùng được cho một số mục đích trên GPU 8GB
      Tò mò mô hình mới này sẽ chạy thế nào trên cấu hình GPU giá rẻ tầm 8–16GB
  • Điều rất quan trọng là đây là mô hình nền tảng, không phải mô hình dạng instruction
    Thứ hữu ích cho chat là mô hình đã được fine-tune theo instruction
    • Tò mò cảm giác khi tự dùng một mô hình nền tảng mạnh sẽ như thế nào
      Có phải chỉ là hoàn thành tiếp phần văn bản prompt như đang viết tiếp không?
  • Ra đúng thời điểm Llama 3 được công bố
    • Cùng ngày đó Google Gemini Pro gần như đưa ra cách tiếp cận multimodal ngữ cảnh dài mở hoàn toàn, còn OpenAI cũng nâng cấp GPT-4-Turbo, nên đó là một ngày tin tức dồn dập