MiniMax-M1 open-weight, mô hình suy luận attention lai quy mô lớn

(github.com/MiniMax-AI)

5 điểm bởi GN⁺ 2025-06-19 | 1 bình luận | Chia sẻ qua WhatsApp

MiniMax-M1 là mô hình suy luận dựa trên hybrid attention quy mô lớn open-weight đầu tiên trên thế giới
Cấu trúc hybrid MoE quy mô 456 tỷ tham số cùng cơ chế Lightning Attention giúp xử lý ngữ cảnh dài vượt trội
Nhờ huấn luyện dựa trên RL và áp dụng thuật toán CISPO, mô hình có thể giải quyết hiệu quả nhiều loại bài toán khác nhau
Trên các benchmark, khi so sánh với DeepSeek-R1, Qwen3-235B và các mô hình khác, mô hình cho thấy hiệu năng nổi bật ở kỹ thuật phần mềm phức tạp, sử dụng công cụ và đầu vào văn bản dài
Với nhiều môi trường suy luận, công cụ hỗ trợ, API và chatbot, mô hình có giá trị cao như nền tảng cho tác tử mô hình ngôn ngữ thế hệ tiếp theo

Tổng quan dự án mã nguồn mở MiniMax-M1

MiniMax-M1 là mô hình suy luận dựa trên hybrid attention quy mô lớn open-weight đầu tiên trên thế giới, cho thấy những ưu thế mạnh mẽ và tính ứng dụng thực tiễn so với các mô hình thương mại và open model hiện có
Mô hình được tối ưu cho ngữ cảnh dài, suy luận phức tạp và giải quyết vấn đề trong môi trường phần mềm bằng cách kết hợp cấu trúc Mixture-of-Experts (MoE) lai quy mô lớn với cơ chế Lightning Attention
Hỗ trợ hiệu quả ngữ cảnh dài (tối đa 1 triệu token), đồng thời giảm mạnh lượng tính toán khi kiểm thử (25% FLOPs so với DeepSeek-R1 ở mốc 100K)
Tối đa hóa cả khả năng mở rộng lẫn hiệu quả suy luận nhờ công nghệ RL mới nhất, thuật toán CISPO kiểu mới và thiết kế hybrid attention

1. Tổng quan mô hình

MiniMax-M1 được trang bị cấu trúc Mixture-of-Experts (MoE) lai và Lightning Attention
Được phát triển dựa trên tiền thân MiniMax-Text-01 (456 tỷ tham số, 45,9 tỷ tham số được kích hoạt trên mỗi token)
Hỗ trợ độ dài ngữ cảnh 1 triệu token (lớn gấp 8 lần context của DeepSeek R1)
Lightning Attention giúp giảm mạnh lượng tính toán khi kiểm thử (25% so với DeepSeek R1)
Phù hợp với các tác vụ đòi hỏi đầu vào dài và suy luận phức tạp
Được huấn luyện trên phạm vi bài toán rộng, bao gồm suy luận toán học và kỹ thuật phần mềm thực tế, thông qua RL quy mô lớn
Đề xuất framework scaling RL riêng của MiniMax-M1
- Kỹ thuật CISPO: áp dụng thuật toán clipping trọng số importance sampling vượt trội hơn các phương pháp RL hiện có
- Tăng cường hiệu quả và khả năng mở rộng của RL dựa trên hybrid attention
Được huấn luyện/phát hành dưới hai phiên bản 40K, 80K thinking budget
Thể hiện hiệu năng vượt trội so với các open model hiệu năng cao như DeepSeek-R1 và Qwen3-235B trong kỹ thuật phần mềm, sử dụng công cụ và các tác vụ long-context
Cung cấp nền tảng để xây dựng tác tử mô hình ngôn ngữ thế hệ tiếp theo nhằm giải quyết các thách thức thực tế

2. Đánh giá (Evaluation)

Những điểm chính trong kết quả benchmark

Đạt mức SOTA ở các lĩnh vực toán học, code, kỹ thuật phần mềm và ngữ cảnh dài
Nhìn chung đạt điểm số cao hơn các open model khác, đặc biệt có năng lực cạnh tranh khác biệt ở benchmark phần mềm (SWE-bench) và long-context
Một số hạng mục đáng chú ý
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Vững vàng ở các tác vụ liên quan đến phát triển phần mềm như LiveCodeBench, FullStackBench
Quảng cáo
Môi trường thực thi: được đánh giá với temperature 1.0, top_p 0.95
Với các benchmark như SWE-bench và TAU-bench, mô hình được đánh giá dựa trên quy trình và cấu hình riêng (ví dụ: định vị hai giai đoạn ở cấp độ file, không dùng embedding)

3. Hướng dẫn sử dụng mô hình MiniMax-M1

Thiết lập khuyến nghị để đạt hiệu năng tối ưu

3.1. Tham số suy luận

Temperature: 1.0
Top_p: 0.95
Tổ hợp này cung cấp môi trường vừa đảm bảo tính đa dạng của văn bản vừa giữ được tính nhất quán logic

3.2. System prompt

Tác vụ thông thường: "You are a helpful assistant."
Phát triển web: cung cấp prompt chuyên biệt cho các tác vụ trang web phức tạp như sinh mã tích hợp toàn bộ UI
Suy luận toán học: giải từng bước rồi điền đáp án cuối cùng vào \boxed{}

4. Hướng dẫn triển khai

Có thể tải các mô hình MiniMax-M1-40k, MiniMax-M1-80k từ HuggingFace
Trong dịch vụ thực tế, khuyến nghị triển khai dựa trên vLLM
- Phù hợp để phục vụ mô hình quy mô lớn nhờ quản lý bộ nhớ hiệu quả, xử lý batch xuất sắc và tối ưu hiệu năng
Quảng cáo
Cũng hỗ trợ triển khai riêng dựa trên Transformers

5. Function calling (giao diện hàm)

MiniMax-M1 hỗ trợ tính năng function calling
- Khi cần hàm bên ngoài, mô hình tự động xuất tham số theo định dạng có cấu trúc
- Cung cấp hướng dẫn function calling

6. Chatbot & API

MiniMax Chatbot: cung cấp giao diện chat có tích hợp cả tìm kiếm trực tuyến
API: cung cấp API trực tuyến cho nhà phát triển và các công cụ như MiniMax MCP Server
- Bao gồm tổng hợp video, hình ảnh, giọng nói dựa trên AI, voice cloning, v.v.

1 bình luận

GN⁺ 2025-06-19

Ý kiến trên Hacker News

Nếu bạn đang thắc mắc cần gì để chạy thứ này, thì cần 8 chiếc H200 141GB và mức giá vào khoảng 250.000 USD
thảo luận trên GitHub / thông tin giá sản phẩm trên eBay
- Không biết có thể chạy bằng Mac Studio 512GB không, khoảng 8.500 USD là đủ
- Đó là khi lượng tử hóa toàn bộ, còn nếu chạy ở Q4 hay Q8 thì có thể vận hành bằng thiết bị dưới 10.000 USD
- Tôi tò mò không biết mô hình này có bao nhiêu tham số
Nghe nói tuần này là “launch week” của MiniMax
Họ công bố M1 vào thứ Hai, và Hailuo 2 vào thứ Ba
tin tức liên quan đến các mô hình Trung Quốc
Hiện vẫn chưa rõ liệu các công bố kiểu này có tiếp tục suốt tuần hay không, và lúc này công ty chủ yếu được biết đến với LLM và mô hình video
Có thể xem thông báo chính thức tại X của MiniMax (trước đây là Twitter)
Ngoài ra, báo cáo kỹ thuật của MiniMax M1 cũng rất đáng đọc
PDF báo cáo kỹ thuật
Dù không phải là mô hình open-weight SOTA, nó đưa ra những tuyên bố rất thú vị và khá lớn về lightning attention và biến thể GRPO (CISPO)
(Tôi không có liên quan gì đến công ty này, chỉ là chia sẻ thông tin mình có được)
- Nếu đã làm theo kiểu thứ Hai là M1, thứ Ba là Hailuo 2 thì đáng ra đặt tên như chip Apple kiểu M1, M1 Pro, M1 Ultra sẽ vui hơn
Khi thấy câu “We publicly release MiniMax-M1 at this https url” trong bài arXiv, tôi thích công ty này vì đó là công bố mã nguồn thực sự chứ không phải một repo trống cho có
Suy nghĩ của tôi
- Theo LinkedIn thì có vẻ là công ty đặt trụ sở ở Singapore, và có vẻ rào cản gia nhập để tạo ra LLM tốt không còn quá lớn
- Nhờ các mô hình open-weight và sự phát triển của Strix Halo / Ryzen AI Max, tôi khá lạc quan rằng trong vài năm tới có thể chạy LLM tốt cục bộ với chi phí rẻ
- Có cảm giác việc chạy mô hình cục bộ rồi sẽ trở thành điều không thể tránh khỏi, và tôi vừa kỳ vọng vừa lo ngại
  Nếu ai biết chuyên gia đáng tin cậy hoặc những người có thảo luận thú vị về lĩnh vực này thì tôi rất muốn được giới thiệu
- Trái với những gì ghi trên LinkedIn, thực ra đây là công ty đặt trụ sở ở Thượng Hải
- Tôi đã thấy một bài đăng trên Twitter nói rằng MiniMax đã huấn luyện mô hình với ngân sách khoảng 500.000 USD
  
  Huấn luyện RL (học tăng cường) với 534.700 USD
  Tôi tò mò không hiểu làm sao có thể làm được với mức chi phí đó
- Công ty này thực sự là một công ty Trung Quốc có trụ sở tại Thượng Hải
  Họ cũng đang lên kế hoạch niêm yết trên Sở giao dịch chứng khoán Hong Kong (HKEX)
  bài viết liên quan
Dù trang chính thức không ghi rõ, MiniMax là một công ty Trung Quốc
tham khảo Wikipedia
- Nhiều người biết MiniMax là công ty Trung Quốc vì tên trình tạo video của họ là “Hailuo”, nghe rất đậm màu sắc Trung Quốc, và đến giờ họ vẫn nổi tiếng nhờ nó
- Tôi không hiểu tại sao họ nhất thiết phải ghi rõ mình là công ty Trung Quốc trên trang dự án của mình
Ước gì mấy cái tên mô hình như thế này được đặt tốt hơn một chút
Nghe như tên bộ xử lý của Mac Studio
- Tôi biết thuật toán minimax
  Tên này được lấy từ thuật toán AI cổ điển rất nổi tiếng đó
- Máy Mac của bạn được làm bởi “Apple”, mà cái tên đó thực ra cũng bắt nguồn từ tên một giống táo
- Nó làm tôi nhớ đến con chó Max thất lạc từ rất lâu của tôi, và tôi thấy cái tên này dở đến mức gần như là một tội ác
Trong bài báo có câu “In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention”
Tức là 87,5% toàn bộ là linear attention, còn 12,5% là full attention
Thực ra thuật ngữ “linear attention” gây khá nhiều nhầm lẫn
softmax attention là một phương thức định tuyến thông tin, khi tính token k thì nó nhận thông tin từ 1 đến k nhưng phải đi qua các kênh có kích thước cố định
Trong khi đó, linear attention chỉ có một “ngân hàng thanh ghi” kích thước cố định ở mỗi layer
Nó chẳng có gì thật sự đáng gọi là attention ngoài việc tương thích với phép tính layer-at-once
Có tin đồn MiniMax đang tung tin về việc IPO niêm yết
bài viết liên quan
Nếu họ đã huấn luyện ở quy mô này mà không cần hạ tầng cloud phương Tây, tôi tò mò kiến trúc xử lý token của họ sẽ ra sao
- Họ đã huấn luyện bằng 512 GPU H800 trong 3 tuần, với chi phí khoảng 500.000 USD
  tham khảo xcancel
- Dùng sneakernet (vận chuyển vật lý)

MiniMax-M1 open-weight, mô hình suy luận attention lai quy mô lớn

Tổng quan dự án mã nguồn mở MiniMax-M1

1. Tổng quan mô hình

2. Đánh giá (Evaluation)

Những điểm chính trong kết quả benchmark

3. Hướng dẫn sử dụng mô hình MiniMax-M1

Thiết lập khuyến nghị để đạt hiệu năng tối ưu

3.1. Tham số suy luận

3.2. System prompt

4. Hướng dẫn triển khai

5. Function calling (giao diện hàm)

6. Chatbot & API

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News