1 điểm bởi GN⁺ 2025-05-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • MiMo-7B là một dòng mô hình được phát triển để khai thác tối đa tiềm năng suy luận của mô hình ngôn ngữ
  • Thông qua các chiến lược tiền huấn luyệnhậu huấn luyện, mô hình thể hiện hiệu năng vượt trội trong các tác vụ suy luận toán học và mã nguồn
  • Dù là một mô hình nhỏ, MiMo-7B vẫn cho thấy hiệu năng tương đương với các mô hình lớn hơn
  • Được cung cấp dưới dạng mã nguồn mở, mở ra khả năng đóng góp cho cộng đồng
  • Thông qua hạ tầng RL, tốc độ huấn luyện và xác minh được cải thiện đáng kể

I. Giới thiệu

  • Phần lớn các nghiên cứu học tăng cường (RL) thành công đều dựa vào mô hình lớn, và việc đồng thời cải thiện năng lực toán học và mã nguồn trên mô hình nhỏ là điều khó khăn
  • MiMo-7B là mô hình được huấn luyện ngay từ đầu cho các tác vụ suy luận, sở hữu tiềm năng suy luận vượt qua các mô hình lớn hơn
  • Dòng MiMo-7B được cung cấp dưới dạng mã nguồn mở, có thể đóng góp cho cộng đồng trong việc phát triển các mô hình ngôn ngữ suy luận mạnh mẽ

🌟 Nội dung chính

  • Tiền huấn luyện: mô hình nền tảng cho suy luận

    • Tối ưu hóa pipeline tiền xử lý dữ liệu để tăng mật độ mẫu suy luận
    • Sử dụng nhiều chiến lược để tạo ra dữ liệu suy luận tổng hợp đa dạng
    • Bổ sung dự đoán đa token như một mục tiêu huấn luyện bổ sung để cải thiện hiệu năng mô hình
  • Công thức hậu huấn luyện: mô hình suy luận tiên phong

    • Sử dụng 130K bài toán toán học và mã nguồn làm dữ liệu huấn luyện RL
    • Giới thiệu phần thưởng mã nguồn dựa trên độ khó kiểm thử để tối ưu hóa chính sách một cách hiệu quả
    • Triển khai chiến lược lấy mẫu lại dữ liệu cho các bài toán dễ để ổn định cập nhật chính sách
  • Hạ tầng RL

    • Phát triển Seamless Rollout Engine để tăng tốc huấn luyện và xác minh RL
    • Hỗ trợ MTP trong vLLM và tăng cường độ vững chắc của engine suy luận trong hệ thống RL

II. Chi tiết mô hình

  • Dòng MiMo-7B cung cấp nhiều checkpoint mô hình khác nhau và có thể tải xuống từ HuggingFace

III. Kết quả đánh giá

  • MiMo-7B-RL cho thấy hiệu năng xuất sắc trong các tác vụ suy luận toán học và mã nguồn
  • Đạt được kết quả cạnh tranh trên nhiều benchmark khác nhau

IV. Triển khai

  • Hỗ trợ suy luận thông qua vLLM và HuggingFace
  • Có thể đạt hiệu năng tối ưu thông qua môi trường khuyến nghị và cách sử dụng prompt phù hợp

V. Trích dẫn

  • Cung cấp thông tin trích dẫn về MiMo-7B

VI. Liên hệ

  • Với các câu hỏi, có thể liên hệ qua mimo@xiaomi.com hoặc thông qua GitHub Issues

1 bình luận

 
GN⁺ 2025-05-01
Ý kiến trên Hacker News
  • Cách bài báo xử lý giai đoạn học tăng cường (RL) cho dữ liệu mã khá thú vị. Họ huấn luyện trên các tác vụ sinh mã có thể giải được bằng cách chạy unit test. Tôi tò mò không biết các mô hình khác cũng có thực hiện bước huấn luyện này không

    • Dữ liệu mã: Họ tuyển chọn một tập huấn luyện chất lượng cao gồm các bộ dữ liệu mã nguồn mở và các bộ bài toán mới được thu thập cho các bài toán lập trình. Các bài không có test case bị loại bỏ. Trong số các bài có lời giải chuẩn, những bài không vượt qua được mọi test case đều bị loại. Với các bài không có lời giải chuẩn, nếu không thể giải được bằng 16 lần rollout của một mô hình suy luận cao cấp thì cũng bị loại. Tương tự dữ liệu toán học, họ dùng phiên bản SFT của MiMo-7B để lọc bỏ các bài quá dễ, tức là những bài được giải hoàn hảo trong cả 16 lần rollout. Quy trình sàng lọc nghiêm ngặt này tạo ra 30.000 bài toán mã
    • Trong mỗi vòng lặp RL, họ đánh giá hàng nghìn bài toán để tính phần thưởng. Mỗi bài có thể gồm hàng trăm test case. Để tăng hiệu quả tính phần thưởng và loại bỏ thời gian GPU nhàn rỗi, họ phát triển một môi trường online judge có thể chạy song song khối lượng unit test cực lớn
  • Tôi thắc mắc vì sao ở Trung Quốc lại có nhiều mô hình AI ưu tiên tiếng Anh đến vậy. Không rõ là họ không quan tâm đến dân số trong nước, hay họ nghĩ rằng nếu công bố mô hình ưu tiên tiếng Trung thì sẽ không được phương Tây chú ý

  • Hiệu năng lập trình của mô hình 7B rất mạnh. Tôi đang dùng Gemini Pro 2.5 và nó đạt 67,8 điểm, còn mô hình này đạt 57,8 điểm, rất sát với 60,6 điểm của Gemini 2.5 Flash

    • Những gì tôi nghe về llama4 khiến tôi trở nên hoài nghi hơn với các kết quả đánh giá, nhưng tôi sẽ chờ xem nó đứng ở đâu trong các bài đánh giá khép kín. Dù vậy, vẫn rất ấn tượng
  • MiMo-7B được cho là vượt qua các mô hình lớn hơn như Qwen-32B và đạt hiệu năng ngang OpenAI o1-mini trên các benchmark toán học/lập trình. Tôi tự hỏi liệu đây có phải là dấu hiệu cho thấy tối ưu hóa pretraining + RLHF bắt đầu vượt qua quy mô, hay chỉ là chúng ta đang ngày càng giỏi hơn trong việc benchmark các năng lực hẹp

  • Thật thú vị khi thấy các benchmark bỏ qua những mô hình hiệu năng hàng đầu như O3. Hiện tại nó là mô hình tốt nhất trên nhiều benchmark. Còn có Gemini Pro/Claude 3.7 nữa

  • Khi dùng file gguf trong ollama, tôi thắc mắc mọi người thường có tạo modelfile để dùng với mô hình mới không, hay chỉ hy vọng ollama mặc định sẽ hoạt động với mô hình mới

  • README chỉ ghi mỗi "RL" mà không nêu rõ đã dùng loại RL nào. Gửi các nhà nghiên cứu: tôi biết mọi người bận, nhưng mong đừng lược bỏ những chi tiết như thế này

  • Tôi đã thử một chút và nhìn chung nó khá vững. Thời gian chờ khá lâu vì thời gian suy nghĩ dài, thậm chí còn lâu hơn các mô hình lớn hơn như qwen moe gần đây

    • moe có vẻ là một sự đánh đổi tốt hơn về tổng thể
  • Tôi tò mò không biết họ có dùng mô hình này cho trợ lý AI trên dòng điện thoại Xiaomi 15 không. Có lẽ là có. Tôi chưa chắc nên kỳ vọng điều gì

  • Wow. Benchmark rất xuất sắc. Tôi mong được trò chuyện với mô hình này

    • Có vài điểm nổi bật. Thứ nhất, mô hình 7B được huấn luyện với 25T token(!). Đây là quy mô huấn luyện kiểu Meta. Llama 4 Maverick được huấn luyện với khoảng 22T. (Scout, mô hình nhỏ hơn: 40T)
    • Thứ hai, đây là một hướng đi thú vị: tiến tới mô hình RL có suy luận được tích hợp ngay từ đầu, thay vì mô hình chưng cất hoặc lớp RL để rút ra suy luận từ các mô hình khác. Họ cho rằng cách này có thể mang lại hiệu quả bổ sung rất lớn trên mỗi tham số
    • Tôi chưa có kinh nghiệm với các mô hình của Xiaomi nên vẫn thận trọng với mô hình này, nhưng về mặt thống kê nó trông rất hứa hẹn như một mô hình suy luận cục bộ