7 điểm bởi GN⁺ 2026-02-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình được huấn luyện quy mô lớn dựa trên học tăng cường để nâng cao khả năng thực hiện các tác vụ phức tạp trong môi trường thực, ghi nhận hiệu năng hàng đầu ở các lĩnh vực mang lại giá trị kinh tế cao như lập trình, tìm kiếm và công việc văn phòng
  • Đạt 80.2% trên SWE-Bench Verified, 51.3% trên Multi-SWE-Bench, và 76.3% trên BrowseComp, đồng thời cho thấy tốc độ nhanh hơn 37% so với thế hệ trước
  • Có thể vận hành với chi phí thấp 1 USD mỗi giờ (ở mức 100TPS), với hiệu năng tương đương Claude Opus 4.6
  • Tăng cường năng lực lập trình, tìm kiếm, và công việc văn phòng nói chung, bao gồm tư duy có cấu trúc, tìm kiếm hiệu quả, và soạn thảo tài liệu ở cấp độ chuyên gia
  • Ngay trong nội bộ MiniMax, mô hình đã tự động thực hiện 30% tổng khối lượng công việc, đảm nhiệm 80% việc tạo mã và chứng minh mức tăng năng suất thực tế

Tổng quan M2.5 và hiệu năng chính

  • M2.5 là mô hình được huấn luyện bằng học tăng cường trong hàng trăm nghìn môi trường thực tế phức tạp, đạt mức SOTA trong lập trình, sử dụng công cụ, tìm kiếm và công việc văn phòng
    • Ghi nhận 80.2% trên SWE-Bench Verified, 51.3% trên Multi-SWE-Bench, và 76.3% trên BrowseComp (bao gồm quản lý ngữ cảnh)
  • Trong đánh giá SWE-Bench Verified, M2.5 hoàn thành tác vụ với tốc độ nhanh hơn 37% so với M2.1, đạt tốc độ xử lý tương đương Claude Opus 4.6
  • Có thể vận hành ở 1 USD mỗi giờ với 100TPS0.3 USD mỗi giờ với 50TPS, là mô hình được tối ưu rất cao về hiệu quả chi phí

Hiệu năng lập trình

  • Đạt mức SOTA trong các tác vụ lập trình đa ngôn ngữ, đặc biệt thể hiện tốt ở hơn 10 ngôn ngữ (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
  • Sở hữu cấu trúc tư duy kiểu kiến trúc sư, thực hiện thiết kế hệ thống, bố cục UI, và phân rã chức năng trước khi viết mã
  • Được huấn luyện trong hơn 200.000 môi trường thực tế, hỗ trợ không chỉ sửa lỗi mà còn toàn bộ vòng đời phát triển phần mềm (thiết kế → phát triển → lặp tính năng → kiểm thử)
  • Trên benchmark VIBE-Pro, hiệu năng tương đương Opus 4.5, còn trên SWE-Bench Verified:
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Tìm kiếm và gọi công cụ

  • Đạt hiệu năng hàng đầu ngành trên BrowseComp, Wide Search và các bài đánh giá tương tự
  • Thông qua RISE (Realistic Interactive Search Evaluation), năng lực tìm kiếm ở mức chuyên gia thực tế đã được kiểm chứng
  • So với thế hệ trước, mô hình đạt cùng kết quả với ít hơn 20% số vòng tìm kiếm, giúp cải thiện hiệu quả token
  • Trong các tác vụ agent phức tạp, mô hình tạo ra kết quả thông qua lộ trình khám phá chính xác và quá trình suy luận hiệu quả

Năng lực công việc văn phòng

  • Xây dựng dữ liệu và phản hồi với sự hợp tác của các chuyên gia tài chính, pháp lý và khoa học xã hội
  • Tăng cường khả năng thực hiện tài liệu chuyên môn và mô hình hóa tài chính trong Word, PowerPoint, Excel và các công cụ tương tự
  • Ghi nhận tỷ lệ thắng trung bình 59.0% trong khung đánh giá nội bộ GDPval-MM
  • Đo lường thực tế mức tăng năng suất trên chi phí token để xác minh hiệu quả công việc trong môi trường thực

Hiệu quả và tốc độ

  • Tốc độ xử lý cơ bản 100TPS, nhanh gần gấp đôi so với các mô hình khác
  • Theo SWE-Bench Verified:
    • M2.5: trung bình 3.52M token, mất 22.8 phút
    • M2.1: 3.72M token, mất 31.3 phút
    • Nhanh hơn 37%, và tương đương Claude Opus 4.6 (22.9 phút)
    • Chi phí chỉ bằng 10% của Opus 4.6

Cấu trúc chi phí

  • Cung cấp hai phiên bản: M2.5-Lightning (100TPS)M2.5 (50TPS)
    • Lightning: 0.3 USD cho mỗi 1 triệu token đầu vào, 2.4 USD cho mỗi 1 triệu token đầu ra
    • M2.5: bằng một nửa mức giá trên
  • Chi phí theo token đầu ra chỉ ở mức 1/10 đến 1/20 so với Opus, Gemini 3 Pro và GPT-5
  • Chạy liên tục 1 giờ ở 100TPS tốn 1 USD, còn ở 50TPS là 0.3 USD
  • Với 10.000 USD mỗi năm có thể vận hành liên tục 4 instance, phù hợp cho việc vận hành agent quy mô lớn

Tốc độ cải tiến mô hình

  • Trong 3 tháng rưỡi, MiniMax đã lần lượt ra mắt M2 → M2.1 → M2.5, cho thấy tốc độ cải tiến nhanh hơn nhóm mô hình cạnh tranh (Claude, GPT, Gemini)
  • Ghi nhận mức tăng hiệu năng rất dốc trên SWE-Bench Verified

Mở rộng học tăng cường (RL Scaling)

  • Xây dựng hàng trăm nghìn môi trường RL để dùng cho huấn luyện mô hình
  • Tự phát triển framework RL dạng agent Forge
    • Tách biệt hoàn toàn engine huấn luyện/suy luận và agent
    • Tăng 40 lần tốc độ huấn luyện nhờ tối ưu lập lịch bất đồng bộchiến lược hợp nhất cây
  • Sử dụng thuật toán CISPO để đảm bảo tính ổn định của các mô hình MoE quy mô lớn
  • Giám sát chất lượng trong ngữ cảnh dài bằng cơ chế phần thưởng theo tiến trình
  • Áp dụng hệ thống đánh giá thời gian tác vụ nhằm cân bằng giữa trí tuệ và tốc độ phản hồi

Tích hợp MiniMax Agent

  • M2.5 được tích hợp hoàn toàn vào MiniMax Agent, mang lại trải nghiệm agent ở cấp độ nhân sự chuyên nghiệp
  • Tự động tải Office Skills (Word, PowerPoint, Excel, v.v.) để nâng cao chất lượng tài liệu
  • Người dùng có thể kết hợp Office Skills với kiến thức chuyên môn theo ngành để tạo Expert tùy chỉnh
    • Ví dụ: tự động viết báo cáo nghiên cứu, tự động tạo và kiểm chứng mô hình tài chính
  • Hiện đã có hơn 10.000 Expert được xây dựng và con số này đang tăng nhanh
  • Trong nội bộ MiniMax, M2.5 tự động thực hiện 30% tổng công việc
    • Được dùng ở mọi bộ phận như R&D, sản phẩm, kinh doanh, nhân sự, tài chính
    • 80% mã trong các commit mới là mã do M2.5 tạo ra

Phụ lục: Tóm tắt phương pháp đánh giá

  • Sử dụng nhiều benchmark nội bộ và bên ngoài như SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
  • Mọi bài kiểm tra đều được tính bằng pipeline thống nhấtgiá trị trung bình qua nhiều lần chạy lặp lại
  • Môi trường đánh giá bao gồm CPU 8 lõi, bộ nhớ 16GB, giới hạn 7200 giây, và bộ công cụ tiêu chuẩn

1 bình luận

 
GN⁺ 2026-02-13
Ý kiến Hacker News
  • Mong sẽ có thêm nhiều mô hình tốt hơn và rẻ hơn
    Cạnh tranh phải sôi động thì thị trường mới lành mạnh
    Nhưng cũng cần nhìn kết quả benchmark một cách thận trọng
    MiniMax 2.1 ổn, nhưng khó mà gọi là “thông minh”
    Đặc biệt, nó có xu hướng can thiệp vào codebase để vượt qua bài test
    Thậm chí đôi khi còn tô vẽ báo cáo như thể các test thất bại đã thành công
    Theo chỉ số của Artificial Analysis, điểm coding của MiniMax 2.1 là 33, cách khá xa các mô hình top đầu

    • Tôi cũng thấy vấn đề tương tự ở nhiều LLM khác
      Khi giao bài toán thuật toán, nếu không giải được thì chúng hardcode test case
      DeepSeek trước đây cũng từng hoạt động kiểu này
    • Tôi chưa dùng MiniMax, nhưng đã thấy đúng vấn đề đó ở GPT-5.2-Codex
      Nó không sửa lỗi type đơn giản mà lạm dụng cast hoặc Any để che vấn đề đi
      Tức là né kiểm tra kiểu thay vì sửa thật
    • MiniMax 2.1 gây quá nhiều lỗi trong công việc parsing dữ liệu của tôi
      Trong khi đó MiMo v2 Flash lại có hiệu năng/giá thành tốt hơn hẳn
  • Có thể nhận ra đó là hình chim bồ nông, nhưng độ hoàn thiện còn thấp
    Đặc biệt là thiếu một thanh ở khung xe đạp
    Hình liên quan

    • Biết đâu không có càng trước lại còn tốt hơn
      Đa số mô hình thường tạo ra cấu trúc bánh trước không thể lái được, còn trường hợp này giống như đang thành thật ghi nhận một “vấn đề chưa giải quyết” hơn
      Cảm giác như để lại chú thích “TODO” trong code vậy
      Xét đến chiều dài chân của chim bồ nông thì tư thế này lại khá tự nhiên về mặt giải phẫu
    • Thử tạo hình bạch tuộc đi xe đạp thay vì chim bồ nông chắc còn khó hơn nhiều
  • MiniMax M2.1 là mô hình tôi dùng thường xuyên nhất
    nhanh, rẻ và có khả năng gọi tool rất tốt
    Khi phát triển tôi dùng Antigravity + Claude, nhưng trong workflow thì tôi dùng MiniMax trước
    Với công việc code thì tôi dùng GLM, còn phân tích tiếng Anh thì dùng Kimi K2.5
    Tôi chưa self-hosting, nhưng thích các mô hình OSS của Trung Quốc
    Vì trong tương lai có khả năng tự host được
    openclaw assistant của tôi cũng đang chạy bằng MiniMax, và nó cho sự cân bằng tốt nhất giữa tốc độ, chất lượng và chi phí
    Chạy 1 giờ ở 100 tokens/sec thì tốn $1, còn 50 tokens/sec thì khoảng $0.30

    • Tôi thích việc những mô hình này kiềm chế thế độc quyền của các phòng nghiên cứu lớn
      Không biết bạn dùng qua API hay là gói thuê bao tháng
      Cũng muốn biết gói tháng có giới hạn tốc độ hay reset gì không
      Tôi cũng thấy MM2.1 là kinh tế nhất, còn K2.5 thì mạnh nhất về tổng thể
    • Rẻ đến mức khó tin
      Tôi phải vào OpenRouter tìm ngay mới được
  • Benchmark trông tốt quá nên thấy hơi đáng nghi
    Cách huấn luyện thì thú vị, nhưng liệu có thật sự mang tính đột phá hay không thì chưa chắc
    Tôi thường đánh giá độ tin cậy của benchmark dựa trên đặc tính khách quan của mô hình và kinh nghiệm trước đây
    Ví dụ, Kimi K2.5 thực sự cho cảm giác cân bằng và thông minh, nên các con số của nó cũng đáng tin hơn
    GLM 5 trước đây từng đưa ra benchmark bị thổi phồng, nhưng lần này họ đã cải thiện mạnh cả kích thước mô hình lẫn kiến trúc nên vẫn có khả năng
    Ngược lại, MiniMax vốn luôn là một mô hình yếu và dễ rơi vào vòng lặp lỗi
    Ngay cả code JavaScript đơn giản nó cũng thường làm hỏng, lại còn có kích thước quá nhỏ nên khó tin vào tuyên bố hiệu năng lần này

  • M2 là ví dụ điển hình của việc thổi phồng điểm benchmark
    Có khoảng cách lớn giữa kết quả SWE-B và các bài toán thực tế chưa từng được huấn luyện
    Bản 2.5 sẽ sớm được thêm vào power ranking của brokk.ai

  • Công ty tôi chỉ cho phép OpenAI, Anthropic và Google LLM trong Github Copilot
    Vì thế nên credit đã cạn chỉ sau một tuần
    Giá mà có thể dùng được nhiều LLM hơn

  • Tôi đã thử M2.5 trên OpenCode cho vài tác vụ đơn giản và kết quả rất tệ
    Chỉ là một script độc lập 250 dòng thôi, nhưng việc mà Opus 4.6 chỉ cần gợi ý là giải được thì M2.5 lại không làm nổi nếu không có prompt cực kỳ chi tiết
    Link đoạn code đã test

  • Điều thú vị là các công ty quy mô trung bình (Tier-2) hầu như không đưa ra mô hình cạnh tranh
    Cuối cùng vẫn là thế đối đầu giữa Big 4 labs và các phòng nghiên cứu Trung Quốc

    • Dù vậy, Mistral có thể xem là ngoại lệ
  • Sẽ rất hay nếu có LLM theo từng ngôn ngữ/chuyên biệt chạy được ngay trên máy tính phổ thông
    Ví dụ một mô hình chỉ được huấn luyện trên Python 3+, một framework cụ thể và một code repository nhất định
    Như vậy có thể tách khỏi mô hình dùng để tìm kiếm trên Internet và giảm chi phí

    • Kiểu distillation như vậy có lẽ khả thi, nhưng tôi nghĩ việc huấn luyện đa ngôn ngữ giúp ích rất nhiều cho hiệu năng của LLM
  • Nghe nói mô hình này tốn $1 mỗi giờ, tức là khá tương đương với gói Claude Code $200/tháng mà tôi đang dùng
    Thực tế tôi chạy song song khoảng 3 cái mỗi ngày, dùng cỡ 60 giờ mỗi tuần
    Nếu có trường hợp sử dụng đủ để chạy liên tục 24/7 thì sẽ rất đáng quan tâm, nhưng hiện tại tôi vẫn chưa rõ
    Không biết có ai đang dùng theo kiểu đó không