Mistral “Mixtral” 8x7B 32k [nam châm]

(twitter.com/MistralAI)

2 điểm bởi GN⁺ 2023-12-09 | 1 bình luận | Chia sẻ qua WhatsApp

1 bình luận

GN⁺ 2023-12-09

Ý kiến trên Hacker News

Trong một tin khác về LLM, các mô hình tinh chỉnh Mistral/Yi được huấn luyện bằng một kỹ thuật mới gọi là neural alignment hiện chưa được tài liệu hóa đang vượt xa các mô hình khác trên bảng xếp hạng Hugging Face
Bản 7B đang “đánh bại” hầu hết các mô hình 70B, và bản 34B đang thử nghiệm cũng trông rất tốt
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Về lý thuyết, kỹ thuật này cũng có thể áp dụng cho Mistral MoE, nên nếu mức cải thiện giống Mistral 7B thông thường và bản thân Mistral MoE cũng tốt, kết quả có thể là một mô hình khá đáng gờm
Có thể đây là điểm ngoặt khi các mô hình mã nguồn mở chạy được trên máy tính để bàn thực sự bắt đầu bám sát GPT-4
- Tôi đã thử bản 7B và cảm giác rõ ràng khác với những gì từng dùng trước đây
  Nó giải thích được một tệp Docker Compose, và cũng tạo được một component Vue đơn giản
  Khi tôi hỏi thêm một chút dựa trên ví dụ, nó giữ được sự nhất quán và tập trung tốt đến kỳ lạ trong suốt cuộc trò chuyện; ngay cả khi không xóa ngữ cảnh, nó vẫn phân biệt tốt giữa việc chuyển sang chủ đề mới hay đang tham chiếu nội dung trước đó
  Đặc biệt, khi tôi hỏi “What does following mean [nội dung docker compose]”, cybertron-7b trả lời kiểu như “trong cấu hình YAML được cung cấp, ‘following’ có nghĩa là phần chỉ định phụ thuộc”, tức là trích nguyên cách diễn đạt của tôi trong dấu ngoặc kép; đây là lần đầu tôi thấy một mô hình trích dẫn chính xác cách diễn đạt trong hội thoại như vậy
- Vì thấy thú vị, tôi đã tạo một ollama modelfile bằng bản GGUF của TheBloke[1] cho biến thể nhỏ nhất, và với một mô hình nhỏ như thế này thì nó thực sự vẫn cho cảm giác khá giống GPT-4
  Tôi thấy nó nhất quán hơn openhermes2.5-mistral, LLM cục bộ mà trước đây tôi chủ yếu dùng
  Nếu đã cài ollama, bạn có thể chạy thử bằng ollama run nollama/una-cybertron-7b-v2
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Đúng vậy. UNA có vẻ có thể căn chỉnh MoE ở nhiều tầng, nhiều chuyên gia, gần như bất kỳ phần nào của mạng nơ-ron
  Xaberius 34B v1 “BETA” mới là vua, nhưng đúng nghĩa là vẫn chỉ đang beta
  Giờ tôi sẽ tập trung vào Mixtral; theo cách mô-đun như thế này thì nó giống quà Giáng sinh vậy. Cảm ơn @mistral đã mở phòng thí nghiệm
- Giờ thì benchmark LLM, tốt nhất là vô nghĩa, còn tệ thì gần như nói dối, không phải sao?
- Đúng. Mistral không mấy bận tâm đến việc làm mô hình yếu đi như bị thiến bằng “huấn luyện an toàn”
  Vì vậy, nó có thể có hiệu năng trên mỗi tham số tốt hơn nhiều so với Anthropic/Google/OpenAI, đồng thời cũng dễ điều khiển hơn
Diễn giải của Andrej Karpathy:
LLM trọng số mở mới của @MistralAI
Theo params.json: hidden_dim / dim = 14336/4096 => mở rộng MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
Phần mã liên quan có vẻ là:
https://github.com/mistralai/megablocks-public
Lạ là không có video ra mắt chuyên nghiệp được tập dượt quá kỹ nói về “cuộc cách mạng AI”
Nếu bạn thắc mắc vì sao dạo này hoạt động AI đặc biệt sôi nổi, đó là vì NeurIPS, hội nghị deep learning lớn nhất, diễn ra vào tuần tới
https://twitter.com/karpathy/status/1733181701361451130
- Nếu NeurIPS diễn ra tuần tới, liệu có thể kỳ vọng những công bố lớn như kiến trúc hoặc mô hình mới từ nhiều công ty không? Tôi không quen với văn hóa hội nghị nghiên cứu nên tò mò
- hidden_dim / dim = 14336/4096 => mở rộng MLP 3.5X và n_heads / n_kv_heads = 32/8 => 4X đều giống hệt Mistral-7B hiện có
- EMNLP 2023 cũng đang diễn ra, nên các công bố mới dồn dập là vì vậy
Mistral có vẻ không đầu tư nhiều vào phần giải thích, nhưng cách làm này khiến sản phẩm đáng tin hơn nhiều so với màn công bố Gemini bóng bẩy, đậm chất doanh nghiệp và vô hồn của Google
- Công bố trọng số tốt hơn tài liệu
  Tôi nhớ cảnh một nhân viên Google khoe rằng việc Gemini công bố trọng số, mà chỉ là Gemini di động cỡ nhỏ, là một động thái hào phóng hơn các công ty khác
Có nhất thiết phải công bố hoành tráng không? Cứ làm theo kiểu thập niên 90 là được: https://twitter.com/erhartford/status/1733159666417545641/ph...
- Trông như một cách táo bạo và tự tin hơn nhiều so với việc tung ra các trang marketing hoặc video rõ ràng bị dàn dựng và phi thực tế
Có vẻ là mixture of experts (MoE), và params.json như sau
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- Trong ngữ cảnh này, chuyên gia chính xác nghĩa là gì?
- Tôi không thấy mã ở đó, vậy runtime nào có thể tải các trọng số này?
Dù không hẳn là các công ty có mục tiêu giống nhau, nhưng nếu đặt việc công bố mô hình này cạnh màn công bố Gemini của Google hai ngày trước thì khá buồn cười
Hoàn toàn tương phản với cách tiếp cận “chỉ có demo mà không có model” của Google hồi đầu tuần này
Có vẻ được huấn luyện bằng Megablocks của Stanford: https://github.com/mistralai/megablocks-public
Có thể gây tranh cãi, nhưng tôi cho rằng Mistral 7B mới là tuyến đầu thực sự của LLM
ChatGPT 4 đúng là đáng kinh ngạc và tôi đã đăng ký từ ngày đầu, nhưng nó chạy trên các server farm khổng lồ ở xa và gần như là một hộp đen
Mistral thì nhỏ, nhưng so với kích thước của nó lại nhất quán và hữu ích đến đáng ngạc nhiên ở cả câu hỏi chung lẫn code, không bị kiểm duyệt, và là một bước nhảy vọt khó tin chỉ trong 1 năm
Có thể chạy trên MacBook Air ở 12 tok/s, và tôi rất mong được thử trên desktop
- Trong phạm vi có thể chạy trên MacBook Air thì là tiên tiến nhất, nhưng không phải tiên tiến nhất trong toàn bộ LLM hay toàn bộ mã nguồn mở
  Yi 34B và Llama2 70B vẫn làm tốt hơn
- Nếu 50% thông tin được tiêu thụ trên Internet được tạo ra trong 24 giờ gần nhất, các model nhỏ có thể có lợi thế khá lớn so với model lớn
  Nếu có thể liên tục huấn luyện lại hoặc fine-tune LLM hay SmallLM hằng tuần hoặc hằng ngày để phản ánh thông tin mới nhất, thì các model cũ được huấn luyện từ 1–2 năm trước sẽ khó theo kịp
  Tôi không biết về giấy phép, nhưng OpenAI cũng có thể đưa một model nhỏ như Mistral7B vào stack GPT, huấn luyện lại từ đầu mỗi tuần rồi thu cùng mức giá như GPT-4
  Chắc chắn sẽ có người dùng thích một model tuy hiệu năng yếu hơn nhưng có tính cập nhật
- Đồng ý. Mistral 7B thực sự tốt đến ngạc nhiên
  Các model fine-tune như bản Intel hay Berkeley Starling, dù chỉ là 7B, vẫn cho cảm giác khá gần với gpt3.5T
  Tôi đã rất mong đợi Mistral 13B, nhưng không biết MoE này có chạy được trên 3090 24GB hay không
  Hy vọng nhờ lượng tử hóa, offloading và các kỹ thuật sắp tới, nó sẽ chạy được
- 12 tok/s trên MacBook Air thì có vẻ hơi thấp
  Có đang dùng tăng tốc GPU Metal trong llama.cpp không? Tôi không có MacBook, nhưng nhìn benchmark của llama.cpp thì có vẻ với tăng tốc GPU có thể lên gần 30 tok/s
- Đúng là vậy. Ít nhất cảm giác ngang tầm llama2 13b
  Nếu mistral 70b tồn tại và tốt hơn llama2 70b với mức cải thiện so với llama2 như đã thấy ở kích thước 7b, thì chắc chắn nó sẽ ở mức tương tự gpt3.5
Hiện đã có một phiên bản Hugging Face chạy thử nghiệm: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google thì demo giả, Mistral thì chỉ cần một magnet link là xong

Mistral “Mixtral” 8x7B 32k [nam châm]

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News