- Kimi K2.5 do Moonshot AI công bố là mô hình tác tử đa phương thức mã nguồn mở được tối ưu đồng thời cho văn bản và thị giác, có thể xử lý toàn diện suy luận, lập trình, thị giác và các tác vụ tác tử trong một mô hình duy nhất
- Để vượt qua giới hạn của các tác tử tuần tự truyền thống, mô hình giới thiệu điều phối tác tử song song Agent Swarm, cho phép phân rã và thực thi đồng thời các tác vụ phức tạp
- Mô hình đưa ra kết quả so sánh hiệu năng với các mô hình thương mại và mã nguồn mở trên bộ đánh giá chuẩn diện rộng bao gồm hình ảnh, video, tài liệu, web và cả môi trường OS
- Nghiên cứu thực nghiệm xác nhận hiệu ứng chuyển giao liên phương thức, trong đó học tăng cường thị giác còn cải thiện cả năng lực suy luận văn bản
- Checkpoint đã huấn luyện được công bố nhằm hướng tới nghiên cứu hệ thống tác tử tổng quát và mở rộng ứng dụng thực tế
Tổng quan và vấn đề đặt ra
- Các mô hình ngôn ngữ lớn đang tiến hóa vượt khỏi hỏi đáp đơn thuần để trở thành trí tuệ tác tử có thể dùng công cụ và lập kế hoạch dài hạn
- Các mô hình đa phương thức trước đây thường được thiết kế theo hướng lấy văn bản làm trung tâm rồi gắn thêm thị giác, nên tồn tại xung đột giữa các phương thức và giới hạn về khả năng khái quát hóa
- Trong các tác vụ thực tế phức tạp, độ trễ do thực thi tác tử tuần tự và giới hạn ngữ cảnh là nút thắt chính
Thiết kế cốt lõi của Kimi K2.5
- Thông qua tiền huấn luyện chung văn bản–thị giác, mô hình trộn hai phương thức theo tỷ lệ nhất định ngay từ giai đoạn đầu huấn luyện để tăng cường căn chỉnh
- Sử dụng bộ mã hóa thị giác MoonViT-3D để xử lý ảnh độ phân giải gốc và video thời lượng dài trong cùng một kiến trúc
- Áp dụng chiến lược zero-vision SFT giúp kích hoạt hiệu năng mà không cần SFT chuyên biệt cho thị giác
- Cải thiện đồng thời tri thức, suy luận, lập trình và năng lực tác tử thông qua học tăng cường đa phương thức chung được tổ chức theo từng đơn vị năng lực
Kiến trúc Agent Swarm
- Bộ điều phối trung tâm phân rã tác vụ thành các bài toán con có thể song song hóa và động sinh ra các tác tử con chuyên biệt
- Mỗi tác tử con làm việc trong ngữ cảnh cục bộ độc lập để tránh làm ô nhiễm ngữ cảnh toàn cục
- Thay vì gộp toàn bộ lịch sử, hệ thống chỉ hợp nhất có chọn lọc các kết quả đã được tóm tắt, qua đó triển khai context sharding
- Mô hình học cách giảm độ trễ bằng các prompt huấn luyện khuyến khích thực thi song song và chỉ số Critical Steps
Cấu hình và quy mô huấn luyện
- Mô hình nền Kimi K2 sử dụng kiến trúc MoE 1 nghìn tỷ tham số và được tiền huấn luyện trên 15 nghìn tỷ token văn bản
- Hỗ trợ độ dài ngữ cảnh tối đa 256k thông qua huấn luyện joint long-context
- Bao gồm dữ liệu đa phương thức đa dạng như hình ảnh, video, OCR, tài liệu và ảnh chụp màn hình OS
Đánh giá và hiệu năng: tóm tắt theo so sánh các mô hình chính
- Kimi K2.5 được đánh giá trong cùng điều kiện với các mô hình thương mại (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) và các mô hình mã nguồn mở (DeepSeek-V3.2, Qwen3-VL-235B)
- Tất cả các đánh giá được thực hiện với temperature 1.0, top-p 0.95 và độ dài ngữ cảnh tối đa 256k
-
Benchmark suy luận và tri thức tổng quát
- Trên AIME 2025, Kimi K2.5 đạt 96.1, vượt Claude Opus 4.5 (92.8) và Gemini 3 Pro (95.0), đồng thời tiệm cận GPT-5.2 (100)
- Trên HMMT 2025 và IMO-AnswerBench, mô hình cũng duy trì điểm số cao hơn Claude Opus 4.5 và Qwen3-VL
- Trên GPQA-Diamond, Kimi K2.5 đạt 87.6, tương đương Claude Opus 4.5 (87.0) và cho thấy hiệu năng vượt trội so với các mô hình mã nguồn mở
- Ở LongBench v2, Gemini 3 Pro ghi điểm cao nhất, nhưng Kimi K2.5 vẫn cho kết quả cạnh tranh so với DeepSeek-V3.2 và Qwen3-VL
-
Lập trình và kỹ nghệ phần mềm
- Trên SWE-Bench Verified, Kimi K2.5 đạt 76.8, tương đương DeepSeek-V3.2 (76.2) và cao hơn Qwen3-VL (73.1)
- Trên SWE-Bench Pro và bản Multilingual, dù thấp hơn các mô hình thương mại, mô hình vẫn thuộc nhóm dẫn đầu trong khối mã nguồn mở
- Trên LiveCodeBench v6, mô hình đạt 85.0, cao hơn Claude Opus 4.5 (82.2) và Qwen3-VL (83.3)
- Ở PaperBench(CodeDev) và CyberGym, các mô hình thương mại vẫn dẫn trước, nhưng Kimi K2.5 cho thấy hiệu năng ổn định ở mức đủ dùng trong thực tế
-
Tác vụ tác tử và truy xuất dựa trên tìm kiếm
- Trên BrowseComp, ở cấu hình tác tử đơn, Kimi K2.5 đạt 60.6, vượt xa Claude Opus 4.5 (37.0)
- Khi áp dụng Agent Swarm, điểm BrowseComp tăng lên 78.4 và WideSearch đạt 79.0, cho thấy cải thiện rõ rệt so với cấu hình tác tử đơn
- Trên WideSearch, Claude Opus 4.5 đạt điểm cao hơn ở cấu hình tác tử đơn, nhưng ở cấu hình tác tử song song thì Kimi K2.5 vượt trội hơn
- Ở các nhóm DeepSearchQA và FinSearchComp, mô hình cũng ghi nhận kết quả ở mức tiệm cận các mô hình thương mại
-
Hiểu thị giác, tài liệu và video
- Trên MMMU-Pro, OCRBench, OmniDocBench 1.5 và các benchmark tương tự, mô hình được so sánh trực tiếp với Qwen3-VL và nhìn chung vẫn giữ được sức cạnh tranh trong suy luận thị giác và hiểu tài liệu
- GPT-5.2 trong một số đánh giá thị giác gặp tỷ lệ lỗi đầu ra khoảng 10%, nên được chấm điểm theo hướng bảo thủ
- Trên các benchmark video dài và ngắn, Kimi K2.5 cho hiệu năng nhất quán và kết quả ổn định hơn so với các mô hình tập trung vào ảnh đơn
-
Đánh giá tổng hợp
- Kimi K2.5 tuy chưa đạt tới các mô hình thương mại có hiệu năng cao nhất ở một số chỉ số, nhưng trong nhóm mô hình đa phương thức và tác tử mã nguồn mở, đây là mô hình có hiệu năng cân bằng và toàn diện bậc nhất
- Đặc biệt, khi áp dụng Agent Swarm, mô hình thể hiện ưu thế rõ ràng trong các tác vụ tác tử và tìm kiếm
- Với khả năng bao quát suy luận, lập trình, thị giác và tác tử trong một mô hình mở duy nhất, đây là mô hình tác tử tổng quát có thể dùng thực tế chứ không chỉ để thử nghiệm
Giới hạn và quan sát
- Một số mô hình thương mại phát sinh tỷ lệ lỗi đầu ra trong benchmark thị giác nên được xử lý bằng điểm số bảo thủ
- Trong các tác vụ tác tử dài, chiến lược quản lý ngữ cảnh tạo ra khác biệt hiệu năng rất lớn
- Một số benchmark chi phí cao bị loại khỏi đánh giá do vấn đề ổn định API
Công bố và ứng dụng
- Checkpoint hậu huấn luyện của Kimi K2.5 được công bố mã nguồn mở
- Đây là mô hình nền có thể tái sử dụng cho hệ thống tác tử tổng quát, nghiên cứu đa phương thức và các workload tự động hóa thực tế
- Cách tiếp cận không tách rời văn bản và thị giác, cùng kiến trúc tác tử song song, có thể trở thành con đường thực tế hướng tới General Agentic Intelligence
Chưa có bình luận nào.