Mô hình suy luận MiMo của Xiaomi
(github.com/XiaomiMiMo)- MiMo-7B là một dòng mô hình được phát triển để khai thác tối đa tiềm năng suy luận của mô hình ngôn ngữ
- Thông qua các chiến lược tiền huấn luyện và hậu huấn luyện, mô hình thể hiện hiệu năng vượt trội trong các tác vụ suy luận toán học và mã nguồn
- Dù là một mô hình nhỏ, MiMo-7B vẫn cho thấy hiệu năng tương đương với các mô hình lớn hơn
- Được cung cấp dưới dạng mã nguồn mở, mở ra khả năng đóng góp cho cộng đồng
- Thông qua hạ tầng RL, tốc độ huấn luyện và xác minh được cải thiện đáng kể
I. Giới thiệu
- Phần lớn các nghiên cứu học tăng cường (RL) thành công đều dựa vào mô hình lớn, và việc đồng thời cải thiện năng lực toán học và mã nguồn trên mô hình nhỏ là điều khó khăn
- MiMo-7B là mô hình được huấn luyện ngay từ đầu cho các tác vụ suy luận, sở hữu tiềm năng suy luận vượt qua các mô hình lớn hơn
- Dòng MiMo-7B được cung cấp dưới dạng mã nguồn mở, có thể đóng góp cho cộng đồng trong việc phát triển các mô hình ngôn ngữ suy luận mạnh mẽ
🌟 Nội dung chính
-
Tiền huấn luyện: mô hình nền tảng cho suy luận
- Tối ưu hóa pipeline tiền xử lý dữ liệu để tăng mật độ mẫu suy luận
- Sử dụng nhiều chiến lược để tạo ra dữ liệu suy luận tổng hợp đa dạng
- Bổ sung dự đoán đa token như một mục tiêu huấn luyện bổ sung để cải thiện hiệu năng mô hình
-
Công thức hậu huấn luyện: mô hình suy luận tiên phong
- Sử dụng 130K bài toán toán học và mã nguồn làm dữ liệu huấn luyện RL
- Giới thiệu phần thưởng mã nguồn dựa trên độ khó kiểm thử để tối ưu hóa chính sách một cách hiệu quả
- Triển khai chiến lược lấy mẫu lại dữ liệu cho các bài toán dễ để ổn định cập nhật chính sách
-
Hạ tầng RL
- Phát triển Seamless Rollout Engine để tăng tốc huấn luyện và xác minh RL
- Hỗ trợ MTP trong vLLM và tăng cường độ vững chắc của engine suy luận trong hệ thống RL
II. Chi tiết mô hình
- Dòng MiMo-7B cung cấp nhiều checkpoint mô hình khác nhau và có thể tải xuống từ HuggingFace
III. Kết quả đánh giá
- MiMo-7B-RL cho thấy hiệu năng xuất sắc trong các tác vụ suy luận toán học và mã nguồn
- Đạt được kết quả cạnh tranh trên nhiều benchmark khác nhau
IV. Triển khai
- Hỗ trợ suy luận thông qua vLLM và HuggingFace
- Có thể đạt hiệu năng tối ưu thông qua môi trường khuyến nghị và cách sử dụng prompt phù hợp
V. Trích dẫn
- Cung cấp thông tin trích dẫn về MiMo-7B
VI. Liên hệ
- Với các câu hỏi, có thể liên hệ qua mimo@xiaomi.com hoặc thông qua GitHub Issues
1 bình luận
Ý kiến trên Hacker News
Cách bài báo xử lý giai đoạn học tăng cường (RL) cho dữ liệu mã khá thú vị. Họ huấn luyện trên các tác vụ sinh mã có thể giải được bằng cách chạy unit test. Tôi tò mò không biết các mô hình khác cũng có thực hiện bước huấn luyện này không
Tôi thắc mắc vì sao ở Trung Quốc lại có nhiều mô hình AI ưu tiên tiếng Anh đến vậy. Không rõ là họ không quan tâm đến dân số trong nước, hay họ nghĩ rằng nếu công bố mô hình ưu tiên tiếng Trung thì sẽ không được phương Tây chú ý
Hiệu năng lập trình của mô hình 7B rất mạnh. Tôi đang dùng Gemini Pro 2.5 và nó đạt 67,8 điểm, còn mô hình này đạt 57,8 điểm, rất sát với 60,6 điểm của Gemini 2.5 Flash
MiMo-7B được cho là vượt qua các mô hình lớn hơn như Qwen-32B và đạt hiệu năng ngang OpenAI o1-mini trên các benchmark toán học/lập trình. Tôi tự hỏi liệu đây có phải là dấu hiệu cho thấy tối ưu hóa pretraining + RLHF bắt đầu vượt qua quy mô, hay chỉ là chúng ta đang ngày càng giỏi hơn trong việc benchmark các năng lực hẹp
Thật thú vị khi thấy các benchmark bỏ qua những mô hình hiệu năng hàng đầu như O3. Hiện tại nó là mô hình tốt nhất trên nhiều benchmark. Còn có Gemini Pro/Claude 3.7 nữa
Khi dùng file gguf trong ollama, tôi thắc mắc mọi người thường có tạo modelfile để dùng với mô hình mới không, hay chỉ hy vọng ollama mặc định sẽ hoạt động với mô hình mới
README chỉ ghi mỗi "RL" mà không nêu rõ đã dùng loại RL nào. Gửi các nhà nghiên cứu: tôi biết mọi người bận, nhưng mong đừng lược bỏ những chi tiết như thế này
Tôi đã thử một chút và nhìn chung nó khá vững. Thời gian chờ khá lâu vì thời gian suy nghĩ dài, thậm chí còn lâu hơn các mô hình lớn hơn như qwen moe gần đây
Tôi tò mò không biết họ có dùng mô hình này cho trợ lý AI trên dòng điện thoại Xiaomi 15 không. Có lẽ là có. Tôi chưa chắc nên kỳ vọng điều gì
Wow. Benchmark rất xuất sắc. Tôi mong được trò chuyện với mô hình này