- MiniMax-M1 là mô hình suy luận dựa trên hybrid attention quy mô lớn open-weight đầu tiên trên thế giới
- Cấu trúc hybrid MoE quy mô 456 tỷ tham số cùng cơ chế Lightning Attention giúp xử lý ngữ cảnh dài vượt trội
- Nhờ huấn luyện dựa trên RL và áp dụng thuật toán CISPO, mô hình có thể giải quyết hiệu quả nhiều loại bài toán khác nhau
- Trên các benchmark, khi so sánh với DeepSeek-R1, Qwen3-235B và các mô hình khác, mô hình cho thấy hiệu năng nổi bật ở kỹ thuật phần mềm phức tạp, sử dụng công cụ và đầu vào văn bản dài
- Với nhiều môi trường suy luận, công cụ hỗ trợ, API và chatbot, mô hình có giá trị cao như nền tảng cho tác tử mô hình ngôn ngữ thế hệ tiếp theo
Tổng quan dự án mã nguồn mở MiniMax-M1
- MiniMax-M1 là mô hình suy luận dựa trên hybrid attention quy mô lớn open-weight đầu tiên trên thế giới, cho thấy những ưu thế mạnh mẽ và tính ứng dụng thực tiễn so với các mô hình thương mại và open model hiện có
- Mô hình được tối ưu cho ngữ cảnh dài, suy luận phức tạp và giải quyết vấn đề trong môi trường phần mềm bằng cách kết hợp cấu trúc Mixture-of-Experts (MoE) lai quy mô lớn với cơ chế Lightning Attention
- Hỗ trợ hiệu quả ngữ cảnh dài (tối đa 1 triệu token), đồng thời giảm mạnh lượng tính toán khi kiểm thử (25% FLOPs so với DeepSeek-R1 ở mốc 100K)
- Tối đa hóa cả khả năng mở rộng lẫn hiệu quả suy luận nhờ công nghệ RL mới nhất, thuật toán CISPO kiểu mới và thiết kế hybrid attention
1. Tổng quan mô hình
- MiniMax-M1 được trang bị cấu trúc Mixture-of-Experts (MoE) lai và Lightning Attention
- Được phát triển dựa trên tiền thân MiniMax-Text-01 (456 tỷ tham số, 45,9 tỷ tham số được kích hoạt trên mỗi token)
- Hỗ trợ độ dài ngữ cảnh 1 triệu token (lớn gấp 8 lần context của DeepSeek R1)
- Lightning Attention giúp giảm mạnh lượng tính toán khi kiểm thử (25% so với DeepSeek R1)
- Phù hợp với các tác vụ đòi hỏi đầu vào dài và suy luận phức tạp
- Được huấn luyện trên phạm vi bài toán rộng, bao gồm suy luận toán học và kỹ thuật phần mềm thực tế, thông qua RL quy mô lớn
- Đề xuất framework scaling RL riêng của MiniMax-M1
- Kỹ thuật CISPO: áp dụng thuật toán clipping trọng số importance sampling vượt trội hơn các phương pháp RL hiện có
- Tăng cường hiệu quả và khả năng mở rộng của RL dựa trên hybrid attention
- Được huấn luyện/phát hành dưới hai phiên bản 40K, 80K thinking budget
- Thể hiện hiệu năng vượt trội so với các open model hiệu năng cao như DeepSeek-R1 và Qwen3-235B trong kỹ thuật phần mềm, sử dụng công cụ và các tác vụ long-context
- Cung cấp nền tảng để xây dựng tác tử mô hình ngôn ngữ thế hệ tiếp theo nhằm giải quyết các thách thức thực tế
2. Đánh giá (Evaluation)
Những điểm chính trong kết quả benchmark
- Đạt mức SOTA ở các lĩnh vực toán học, code, kỹ thuật phần mềm và ngữ cảnh dài
- Nhìn chung đạt điểm số cao hơn các open model khác, đặc biệt có năng lực cạnh tranh khác biệt ở benchmark phần mềm (SWE-bench) và long-context
- Một số hạng mục đáng chú ý
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Vững vàng ở các tác vụ liên quan đến phát triển phần mềm như LiveCodeBench, FullStackBench
- Môi trường thực thi: được đánh giá với temperature 1.0, top_p 0.95
- Với các benchmark như SWE-bench và TAU-bench, mô hình được đánh giá dựa trên quy trình và cấu hình riêng (ví dụ: định vị hai giai đoạn ở cấp độ file, không dùng embedding)
3. Hướng dẫn sử dụng mô hình MiniMax-M1
Thiết lập khuyến nghị để đạt hiệu năng tối ưu
3.1. Tham số suy luận
- Temperature: 1.0
- Top_p: 0.95
Tổ hợp này cung cấp môi trường vừa đảm bảo tính đa dạng của văn bản vừa giữ được tính nhất quán logic
3.2. System prompt
- Tác vụ thông thường: "You are a helpful assistant."
- Phát triển web: cung cấp prompt chuyên biệt cho các tác vụ trang web phức tạp như sinh mã tích hợp toàn bộ UI
- Suy luận toán học: giải từng bước rồi điền đáp án cuối cùng vào \boxed{}
4. Hướng dẫn triển khai
- Có thể tải các mô hình MiniMax-M1-40k, MiniMax-M1-80k từ HuggingFace
- Trong dịch vụ thực tế, khuyến nghị triển khai dựa trên vLLM
- Phù hợp để phục vụ mô hình quy mô lớn nhờ quản lý bộ nhớ hiệu quả, xử lý batch xuất sắc và tối ưu hiệu năng
- Cũng hỗ trợ triển khai riêng dựa trên Transformers
5. Function calling (giao diện hàm)
- MiniMax-M1 hỗ trợ tính năng function calling
6. Chatbot & API
- MiniMax Chatbot: cung cấp giao diện chat có tích hợp cả tìm kiếm trực tuyến
- API: cung cấp API trực tuyến cho nhà phát triển và các công cụ như MiniMax MCP Server
- Bao gồm tổng hợp video, hình ảnh, giọng nói dựa trên AI, voice cloning, v.v.
1 bình luận
Ý kiến trên Hacker News
Nếu bạn đang thắc mắc cần gì để chạy thứ này, thì cần 8 chiếc H200 141GB và mức giá vào khoảng 250.000 USD
thảo luận trên GitHub / thông tin giá sản phẩm trên eBay
Nghe nói tuần này là “launch week” của MiniMax
Họ công bố M1 vào thứ Hai, và Hailuo 2 vào thứ Ba
tin tức liên quan đến các mô hình Trung Quốc
Hiện vẫn chưa rõ liệu các công bố kiểu này có tiếp tục suốt tuần hay không, và lúc này công ty chủ yếu được biết đến với LLM và mô hình video
Có thể xem thông báo chính thức tại X của MiniMax (trước đây là Twitter)
Ngoài ra, báo cáo kỹ thuật của MiniMax M1 cũng rất đáng đọc
PDF báo cáo kỹ thuật
Dù không phải là mô hình open-weight SOTA, nó đưa ra những tuyên bố rất thú vị và khá lớn về lightning attention và biến thể GRPO (CISPO)
(Tôi không có liên quan gì đến công ty này, chỉ là chia sẻ thông tin mình có được)
Khi thấy câu “We publicly release MiniMax-M1 at this https url” trong bài arXiv, tôi thích công ty này vì đó là công bố mã nguồn thực sự chứ không phải một repo trống cho có
Suy nghĩ của tôi
Nếu ai biết chuyên gia đáng tin cậy hoặc những người có thảo luận thú vị về lĩnh vực này thì tôi rất muốn được giới thiệu
Họ cũng đang lên kế hoạch niêm yết trên Sở giao dịch chứng khoán Hong Kong (HKEX)
bài viết liên quan
Dù trang chính thức không ghi rõ, MiniMax là một công ty Trung Quốc
tham khảo Wikipedia
Ước gì mấy cái tên mô hình như thế này được đặt tốt hơn một chút
Nghe như tên bộ xử lý của Mac Studio
Tên này được lấy từ thuật toán AI cổ điển rất nổi tiếng đó
Trong bài báo có câu “In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention”
Tức là 87,5% toàn bộ là linear attention, còn 12,5% là full attention
Thực ra thuật ngữ “linear attention” gây khá nhiều nhầm lẫn
softmax attention là một phương thức định tuyến thông tin, khi tính token k thì nó nhận thông tin từ 1 đến k nhưng phải đi qua các kênh có kích thước cố định
Trong khi đó, linear attention chỉ có một “ngân hàng thanh ghi” kích thước cố định ở mỗi layer
Nó chẳng có gì thật sự đáng gọi là attention ngoài việc tương thích với phép tính layer-at-once
Có tin đồn MiniMax đang tung tin về việc IPO niêm yết
bài viết liên quan
Nếu họ đã huấn luyện ở quy mô này mà không cần hạ tầng cloud phương Tây, tôi tò mò kiến trúc xử lý token của họ sẽ ra sao
tham khảo xcancel