Báo cáo kỹ thuật Kimi K2.5 [PDF] - Mô hình đa phương thức mở hướng tới trí tuệ tác tử thị giác

(github.com/MoonshotAI)

5 điểm bởi GN⁺ 2026-02-01 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Kimi K2.5 do Moonshot AI công bố là mô hình tác tử đa phương thức mã nguồn mở được tối ưu đồng thời cho văn bản và thị giác, có thể xử lý toàn diện suy luận, lập trình, thị giác và các tác vụ tác tử trong một mô hình duy nhất
Để vượt qua giới hạn của các tác tử tuần tự truyền thống, mô hình giới thiệu điều phối tác tử song song Agent Swarm, cho phép phân rã và thực thi đồng thời các tác vụ phức tạp
Mô hình đưa ra kết quả so sánh hiệu năng với các mô hình thương mại và mã nguồn mở trên bộ đánh giá chuẩn diện rộng bao gồm hình ảnh, video, tài liệu, web và cả môi trường OS
Nghiên cứu thực nghiệm xác nhận hiệu ứng chuyển giao liên phương thức, trong đó học tăng cường thị giác còn cải thiện cả năng lực suy luận văn bản
Checkpoint đã huấn luyện được công bố nhằm hướng tới nghiên cứu hệ thống tác tử tổng quát và mở rộng ứng dụng thực tế

Tổng quan và vấn đề đặt ra

Các mô hình ngôn ngữ lớn đang tiến hóa vượt khỏi hỏi đáp đơn thuần để trở thành trí tuệ tác tử có thể dùng công cụ và lập kế hoạch dài hạn
Các mô hình đa phương thức trước đây thường được thiết kế theo hướng lấy văn bản làm trung tâm rồi gắn thêm thị giác, nên tồn tại xung đột giữa các phương thức và giới hạn về khả năng khái quát hóa
Trong các tác vụ thực tế phức tạp, độ trễ do thực thi tác tử tuần tự và giới hạn ngữ cảnh là nút thắt chính

Thiết kế cốt lõi của Kimi K2.5

Thông qua tiền huấn luyện chung văn bản–thị giác, mô hình trộn hai phương thức theo tỷ lệ nhất định ngay từ giai đoạn đầu huấn luyện để tăng cường căn chỉnh
Sử dụng bộ mã hóa thị giác MoonViT-3D để xử lý ảnh độ phân giải gốc và video thời lượng dài trong cùng một kiến trúc
Áp dụng chiến lược zero-vision SFT giúp kích hoạt hiệu năng mà không cần SFT chuyên biệt cho thị giác
Cải thiện đồng thời tri thức, suy luận, lập trình và năng lực tác tử thông qua học tăng cường đa phương thức chung được tổ chức theo từng đơn vị năng lực

Kiến trúc Agent Swarm

Bộ điều phối trung tâm phân rã tác vụ thành các bài toán con có thể song song hóa và động sinh ra các tác tử con chuyên biệt
Mỗi tác tử con làm việc trong ngữ cảnh cục bộ độc lập để tránh làm ô nhiễm ngữ cảnh toàn cục
Thay vì gộp toàn bộ lịch sử, hệ thống chỉ hợp nhất có chọn lọc các kết quả đã được tóm tắt, qua đó triển khai context sharding
Mô hình học cách giảm độ trễ bằng các prompt huấn luyện khuyến khích thực thi song song và chỉ số Critical Steps

Cấu hình và quy mô huấn luyện

Mô hình nền Kimi K2 sử dụng kiến trúc MoE 1 nghìn tỷ tham số và được tiền huấn luyện trên 15 nghìn tỷ token văn bản
Hỗ trợ độ dài ngữ cảnh tối đa 256k thông qua huấn luyện joint long-context
Bao gồm dữ liệu đa phương thức đa dạng như hình ảnh, video, OCR, tài liệu và ảnh chụp màn hình OS

Đánh giá và hiệu năng: tóm tắt theo so sánh các mô hình chính

Kimi K2.5 được đánh giá trong cùng điều kiện với các mô hình thương mại (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) và các mô hình mã nguồn mở (DeepSeek-V3.2, Qwen3-VL-235B)
Tất cả các đánh giá được thực hiện với temperature 1.0, top-p 0.95 và độ dài ngữ cảnh tối đa 256k
Benchmark suy luận và tri thức tổng quát
- Trên AIME 2025, Kimi K2.5 đạt 96.1, vượt Claude Opus 4.5 (92.8) và Gemini 3 Pro (95.0), đồng thời tiệm cận GPT-5.2 (100)
- Trên HMMT 2025 và IMO-AnswerBench, mô hình cũng duy trì điểm số cao hơn Claude Opus 4.5 và Qwen3-VL
- Trên GPQA-Diamond, Kimi K2.5 đạt 87.6, tương đương Claude Opus 4.5 (87.0) và cho thấy hiệu năng vượt trội so với các mô hình mã nguồn mở
- Ở LongBench v2, Gemini 3 Pro ghi điểm cao nhất, nhưng Kimi K2.5 vẫn cho kết quả cạnh tranh so với DeepSeek-V3.2 và Qwen3-VL
Lập trình và kỹ nghệ phần mềm
- Trên SWE-Bench Verified, Kimi K2.5 đạt 76.8, tương đương DeepSeek-V3.2 (76.2) và cao hơn Qwen3-VL (73.1)
- Trên SWE-Bench Pro và bản Multilingual, dù thấp hơn các mô hình thương mại, mô hình vẫn thuộc nhóm dẫn đầu trong khối mã nguồn mở
- Trên LiveCodeBench v6, mô hình đạt 85.0, cao hơn Claude Opus 4.5 (82.2) và Qwen3-VL (83.3)
- Ở PaperBench(CodeDev) và CyberGym, các mô hình thương mại vẫn dẫn trước, nhưng Kimi K2.5 cho thấy hiệu năng ổn định ở mức đủ dùng trong thực tế
Tác vụ tác tử và truy xuất dựa trên tìm kiếm
- Trên BrowseComp, ở cấu hình tác tử đơn, Kimi K2.5 đạt 60.6, vượt xa Claude Opus 4.5 (37.0)
- Khi áp dụng Agent Swarm, điểm BrowseComp tăng lên 78.4 và WideSearch đạt 79.0, cho thấy cải thiện rõ rệt so với cấu hình tác tử đơn
- Trên WideSearch, Claude Opus 4.5 đạt điểm cao hơn ở cấu hình tác tử đơn, nhưng ở cấu hình tác tử song song thì Kimi K2.5 vượt trội hơn
- Ở các nhóm DeepSearchQA và FinSearchComp, mô hình cũng ghi nhận kết quả ở mức tiệm cận các mô hình thương mại
Hiểu thị giác, tài liệu và video
- Trên MMMU-Pro, OCRBench, OmniDocBench 1.5 và các benchmark tương tự, mô hình được so sánh trực tiếp với Qwen3-VL và nhìn chung vẫn giữ được sức cạnh tranh trong suy luận thị giác và hiểu tài liệu
- GPT-5.2 trong một số đánh giá thị giác gặp tỷ lệ lỗi đầu ra khoảng 10%, nên được chấm điểm theo hướng bảo thủ
- Trên các benchmark video dài và ngắn, Kimi K2.5 cho hiệu năng nhất quán và kết quả ổn định hơn so với các mô hình tập trung vào ảnh đơn
Quảng cáo
Đánh giá tổng hợp
- Kimi K2.5 tuy chưa đạt tới các mô hình thương mại có hiệu năng cao nhất ở một số chỉ số, nhưng trong nhóm mô hình đa phương thức và tác tử mã nguồn mở, đây là mô hình có hiệu năng cân bằng và toàn diện bậc nhất
- Đặc biệt, khi áp dụng Agent Swarm, mô hình thể hiện ưu thế rõ ràng trong các tác vụ tác tử và tìm kiếm
- Với khả năng bao quát suy luận, lập trình, thị giác và tác tử trong một mô hình mở duy nhất, đây là mô hình tác tử tổng quát có thể dùng thực tế chứ không chỉ để thử nghiệm

Giới hạn và quan sát

Một số mô hình thương mại phát sinh tỷ lệ lỗi đầu ra trong benchmark thị giác nên được xử lý bằng điểm số bảo thủ
Trong các tác vụ tác tử dài, chiến lược quản lý ngữ cảnh tạo ra khác biệt hiệu năng rất lớn
Một số benchmark chi phí cao bị loại khỏi đánh giá do vấn đề ổn định API

Công bố và ứng dụng

Checkpoint hậu huấn luyện của Kimi K2.5 được công bố mã nguồn mở
Đây là mô hình nền có thể tái sử dụng cho hệ thống tác tử tổng quát, nghiên cứu đa phương thức và các workload tự động hóa thực tế
Cách tiếp cận không tách rời văn bản và thị giác, cùng kiến trúc tác tử song song, có thể trở thành con đường thực tế hướng tới General Agentic Intelligence

Báo cáo kỹ thuật Kimi K2.5 [PDF] - Mô hình đa phương thức mở hướng tới trí tuệ tác tử thị giác

Tổng quan và vấn đề đặt ra

Thiết kế cốt lõi của Kimi K2.5

Kiến trúc Agent Swarm

Cấu hình và quy mô huấn luyện

Đánh giá và hiệu năng: tóm tắt theo so sánh các mô hình chính

Benchmark suy luận và tri thức tổng quát

Lập trình và kỹ nghệ phần mềm

Tác vụ tác tử và truy xuất dựa trên tìm kiếm

Hiểu thị giác, tài liệu và video

Đánh giá tổng hợp

Giới hạn và quan sát

Công bố và ứng dụng

Bài viết liên quan

Chưa có bình luận nào.