- Mô hình được huấn luyện quy mô lớn dựa trên học tăng cường để nâng cao khả năng thực hiện các tác vụ phức tạp trong môi trường thực, ghi nhận hiệu năng hàng đầu ở các lĩnh vực mang lại giá trị kinh tế cao như lập trình, tìm kiếm và công việc văn phòng
- Đạt 80.2% trên SWE-Bench Verified, 51.3% trên Multi-SWE-Bench, và 76.3% trên BrowseComp, đồng thời cho thấy tốc độ nhanh hơn 37% so với thế hệ trước
- Có thể vận hành với chi phí thấp 1 USD mỗi giờ (ở mức 100TPS), với hiệu năng tương đương Claude Opus 4.6
- Tăng cường năng lực lập trình, tìm kiếm, và công việc văn phòng nói chung, bao gồm tư duy có cấu trúc, tìm kiếm hiệu quả, và soạn thảo tài liệu ở cấp độ chuyên gia
- Ngay trong nội bộ MiniMax, mô hình đã tự động thực hiện 30% tổng khối lượng công việc, đảm nhiệm 80% việc tạo mã và chứng minh mức tăng năng suất thực tế
Tổng quan M2.5 và hiệu năng chính
- M2.5 là mô hình được huấn luyện bằng học tăng cường trong hàng trăm nghìn môi trường thực tế phức tạp, đạt mức SOTA trong lập trình, sử dụng công cụ, tìm kiếm và công việc văn phòng
- Ghi nhận 80.2% trên SWE-Bench Verified, 51.3% trên Multi-SWE-Bench, và 76.3% trên BrowseComp (bao gồm quản lý ngữ cảnh)
- Trong đánh giá SWE-Bench Verified, M2.5 hoàn thành tác vụ với tốc độ nhanh hơn 37% so với M2.1, đạt tốc độ xử lý tương đương Claude Opus 4.6
- Có thể vận hành ở 1 USD mỗi giờ với 100TPS và 0.3 USD mỗi giờ với 50TPS, là mô hình được tối ưu rất cao về hiệu quả chi phí
Hiệu năng lập trình
- Đạt mức SOTA trong các tác vụ lập trình đa ngôn ngữ, đặc biệt thể hiện tốt ở hơn 10 ngôn ngữ (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Sở hữu cấu trúc tư duy kiểu kiến trúc sư, thực hiện thiết kế hệ thống, bố cục UI, và phân rã chức năng trước khi viết mã
- Được huấn luyện trong hơn 200.000 môi trường thực tế, hỗ trợ không chỉ sửa lỗi mà còn toàn bộ vòng đời phát triển phần mềm (thiết kế → phát triển → lặp tính năng → kiểm thử)
- Trên benchmark VIBE-Pro, hiệu năng tương đương Opus 4.5, còn trên SWE-Bench Verified:
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Tìm kiếm và gọi công cụ
- Đạt hiệu năng hàng đầu ngành trên BrowseComp, Wide Search và các bài đánh giá tương tự
- Thông qua RISE (Realistic Interactive Search Evaluation), năng lực tìm kiếm ở mức chuyên gia thực tế đã được kiểm chứng
- So với thế hệ trước, mô hình đạt cùng kết quả với ít hơn 20% số vòng tìm kiếm, giúp cải thiện hiệu quả token
- Trong các tác vụ agent phức tạp, mô hình tạo ra kết quả thông qua lộ trình khám phá chính xác và quá trình suy luận hiệu quả
Năng lực công việc văn phòng
- Xây dựng dữ liệu và phản hồi với sự hợp tác của các chuyên gia tài chính, pháp lý và khoa học xã hội
- Tăng cường khả năng thực hiện tài liệu chuyên môn và mô hình hóa tài chính trong Word, PowerPoint, Excel và các công cụ tương tự
- Ghi nhận tỷ lệ thắng trung bình 59.0% trong khung đánh giá nội bộ GDPval-MM
- Đo lường thực tế mức tăng năng suất trên chi phí token để xác minh hiệu quả công việc trong môi trường thực
Hiệu quả và tốc độ
- Tốc độ xử lý cơ bản 100TPS, nhanh gần gấp đôi so với các mô hình khác
- Theo SWE-Bench Verified:
- M2.5: trung bình 3.52M token, mất 22.8 phút
- M2.1: 3.72M token, mất 31.3 phút
- Nhanh hơn 37%, và tương đương Claude Opus 4.6 (22.9 phút)
- Chi phí chỉ bằng 10% của Opus 4.6
Cấu trúc chi phí
- Cung cấp hai phiên bản: M2.5-Lightning (100TPS) và M2.5 (50TPS)
- Lightning: 0.3 USD cho mỗi 1 triệu token đầu vào, 2.4 USD cho mỗi 1 triệu token đầu ra
- M2.5: bằng một nửa mức giá trên
- Chi phí theo token đầu ra chỉ ở mức 1/10 đến 1/20 so với Opus, Gemini 3 Pro và GPT-5
- Chạy liên tục 1 giờ ở 100TPS tốn 1 USD, còn ở 50TPS là 0.3 USD
- Với 10.000 USD mỗi năm có thể vận hành liên tục 4 instance, phù hợp cho việc vận hành agent quy mô lớn
Tốc độ cải tiến mô hình
- Trong 3 tháng rưỡi, MiniMax đã lần lượt ra mắt M2 → M2.1 → M2.5, cho thấy tốc độ cải tiến nhanh hơn nhóm mô hình cạnh tranh (Claude, GPT, Gemini)
- Ghi nhận mức tăng hiệu năng rất dốc trên SWE-Bench Verified
Mở rộng học tăng cường (RL Scaling)
- Xây dựng hàng trăm nghìn môi trường RL để dùng cho huấn luyện mô hình
- Tự phát triển framework RL dạng agent Forge
- Tách biệt hoàn toàn engine huấn luyện/suy luận và agent
- Tăng 40 lần tốc độ huấn luyện nhờ tối ưu lập lịch bất đồng bộ và chiến lược hợp nhất cây
- Sử dụng thuật toán CISPO để đảm bảo tính ổn định của các mô hình MoE quy mô lớn
- Giám sát chất lượng trong ngữ cảnh dài bằng cơ chế phần thưởng theo tiến trình
- Áp dụng hệ thống đánh giá thời gian tác vụ nhằm cân bằng giữa trí tuệ và tốc độ phản hồi
Tích hợp MiniMax Agent
- M2.5 được tích hợp hoàn toàn vào MiniMax Agent, mang lại trải nghiệm agent ở cấp độ nhân sự chuyên nghiệp
- Tự động tải Office Skills (Word, PowerPoint, Excel, v.v.) để nâng cao chất lượng tài liệu
- Người dùng có thể kết hợp Office Skills với kiến thức chuyên môn theo ngành để tạo Expert tùy chỉnh
- Ví dụ: tự động viết báo cáo nghiên cứu, tự động tạo và kiểm chứng mô hình tài chính
- Hiện đã có hơn 10.000 Expert được xây dựng và con số này đang tăng nhanh
- Trong nội bộ MiniMax, M2.5 tự động thực hiện 30% tổng công việc
- Được dùng ở mọi bộ phận như R&D, sản phẩm, kinh doanh, nhân sự, tài chính
- 80% mã trong các commit mới là mã do M2.5 tạo ra
Phụ lục: Tóm tắt phương pháp đánh giá
- Sử dụng nhiều benchmark nội bộ và bên ngoài như SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
- Mọi bài kiểm tra đều được tính bằng pipeline thống nhất và giá trị trung bình qua nhiều lần chạy lặp lại
- Môi trường đánh giá bao gồm CPU 8 lõi, bộ nhớ 16GB, giới hạn 7200 giây, và bộ công cụ tiêu chuẩn
1 bình luận
Ý kiến Hacker News
Mong sẽ có thêm nhiều mô hình tốt hơn và rẻ hơn
Cạnh tranh phải sôi động thì thị trường mới lành mạnh
Nhưng cũng cần nhìn kết quả benchmark một cách thận trọng
MiniMax 2.1 ổn, nhưng khó mà gọi là “thông minh”
Đặc biệt, nó có xu hướng can thiệp vào codebase để vượt qua bài test
Thậm chí đôi khi còn tô vẽ báo cáo như thể các test thất bại đã thành công
Theo chỉ số của Artificial Analysis, điểm coding của MiniMax 2.1 là 33, cách khá xa các mô hình top đầu
Khi giao bài toán thuật toán, nếu không giải được thì chúng hardcode test case
DeepSeek trước đây cũng từng hoạt động kiểu này
Nó không sửa lỗi type đơn giản mà lạm dụng cast hoặc Any để che vấn đề đi
Tức là né kiểm tra kiểu thay vì sửa thật
Trong khi đó MiMo v2 Flash lại có hiệu năng/giá thành tốt hơn hẳn
Có thể nhận ra đó là hình chim bồ nông, nhưng độ hoàn thiện còn thấp
Đặc biệt là thiếu một thanh ở khung xe đạp
Hình liên quan
Đa số mô hình thường tạo ra cấu trúc bánh trước không thể lái được, còn trường hợp này giống như đang thành thật ghi nhận một “vấn đề chưa giải quyết” hơn
Cảm giác như để lại chú thích “TODO” trong code vậy
Xét đến chiều dài chân của chim bồ nông thì tư thế này lại khá tự nhiên về mặt giải phẫu
MiniMax M2.1 là mô hình tôi dùng thường xuyên nhất
Nó nhanh, rẻ và có khả năng gọi tool rất tốt
Khi phát triển tôi dùng Antigravity + Claude, nhưng trong workflow thì tôi dùng MiniMax trước
Với công việc code thì tôi dùng GLM, còn phân tích tiếng Anh thì dùng Kimi K2.5
Tôi chưa self-hosting, nhưng thích các mô hình OSS của Trung Quốc
Vì trong tương lai có khả năng tự host được
openclaw assistant của tôi cũng đang chạy bằng MiniMax, và nó cho sự cân bằng tốt nhất giữa tốc độ, chất lượng và chi phí
Chạy 1 giờ ở 100 tokens/sec thì tốn $1, còn 50 tokens/sec thì khoảng $0.30
Không biết bạn dùng qua API hay là gói thuê bao tháng
Cũng muốn biết gói tháng có giới hạn tốc độ hay reset gì không
Tôi cũng thấy MM2.1 là kinh tế nhất, còn K2.5 thì mạnh nhất về tổng thể
Tôi phải vào OpenRouter tìm ngay mới được
Benchmark trông tốt quá nên thấy hơi đáng nghi
Cách huấn luyện thì thú vị, nhưng liệu có thật sự mang tính đột phá hay không thì chưa chắc
Tôi thường đánh giá độ tin cậy của benchmark dựa trên đặc tính khách quan của mô hình và kinh nghiệm trước đây
Ví dụ, Kimi K2.5 thực sự cho cảm giác cân bằng và thông minh, nên các con số của nó cũng đáng tin hơn
GLM 5 trước đây từng đưa ra benchmark bị thổi phồng, nhưng lần này họ đã cải thiện mạnh cả kích thước mô hình lẫn kiến trúc nên vẫn có khả năng
Ngược lại, MiniMax vốn luôn là một mô hình yếu và dễ rơi vào vòng lặp lỗi
Ngay cả code JavaScript đơn giản nó cũng thường làm hỏng, lại còn có kích thước quá nhỏ nên khó tin vào tuyên bố hiệu năng lần này
M2 là ví dụ điển hình của việc thổi phồng điểm benchmark
Có khoảng cách lớn giữa kết quả SWE-B và các bài toán thực tế chưa từng được huấn luyện
Bản 2.5 sẽ sớm được thêm vào power ranking của brokk.ai
Công ty tôi chỉ cho phép OpenAI, Anthropic và Google LLM trong Github Copilot
Vì thế nên credit đã cạn chỉ sau một tuần
Giá mà có thể dùng được nhiều LLM hơn
Tôi đã thử M2.5 trên OpenCode cho vài tác vụ đơn giản và kết quả rất tệ
Chỉ là một script độc lập 250 dòng thôi, nhưng việc mà Opus 4.6 chỉ cần gợi ý là giải được thì M2.5 lại không làm nổi nếu không có prompt cực kỳ chi tiết
Link đoạn code đã test
Điều thú vị là các công ty quy mô trung bình (Tier-2) hầu như không đưa ra mô hình cạnh tranh
Cuối cùng vẫn là thế đối đầu giữa Big 4 labs và các phòng nghiên cứu Trung Quốc
Sẽ rất hay nếu có LLM theo từng ngôn ngữ/chuyên biệt chạy được ngay trên máy tính phổ thông
Ví dụ một mô hình chỉ được huấn luyện trên Python 3+, một framework cụ thể và một code repository nhất định
Như vậy có thể tách khỏi mô hình dùng để tìm kiếm trên Internet và giảm chi phí
Nghe nói mô hình này tốn $1 mỗi giờ, tức là khá tương đương với gói Claude Code $200/tháng mà tôi đang dùng
Thực tế tôi chạy song song khoảng 3 cái mỗi ngày, dùng cỡ 60 giờ mỗi tuần
Nếu có trường hợp sử dụng đủ để chạy liên tục 24/7 thì sẽ rất đáng quan tâm, nhưng hiện tại tôi vẫn chưa rõ
Không biết có ai đang dùng theo kiểu đó không