- Kimi K2.5 là mô hình đa phương thức mã nguồn mở được huấn luyện bổ sung với khoảng 1,5 nghìn tỷ token thị giác và văn bản, tích hợp khả năng viết mã và xử lý thị giác
- Thông qua kiến trúc Agent Swarm điều phối song song tối đa 100 tác tử con, mô hình có thể thực hiện các tác vụ phức tạp nhanh hơn 4,5 lần
- Được liên kết với Kimi Code và Kimi App, hỗ trợ nhiều tính năng thực tiễn như lập trình dựa trên hình ảnh/video, gỡ lỗi trực quan và tự động hóa công việc văn phòng
- Trong benchmark nội bộ, mô hình ghi nhận mức cải thiện hiệu năng có ý nghĩa so với K2 trên toàn bộ các mảng lập trình, thị giác và năng suất văn phòng
- Trong cộng đồng mã nguồn mở, mô hình được đánh giá là bước tiến thực chất hướng tới AGI (trí tuệ nhân tạo tổng quát)
Tổng quan về Kimi K2.5
- Kimi K2.5 là mô hình đa phương thức native được tiền huấn luyện bổ sung dựa trên mô hình K2 với khoảng 1,5 nghìn tỷ token thị giác-văn bản hỗn hợp
- Tích hợp năng lực lập trình và thị giác, đồng thời hiện thực hóa mô hình agent swarm tự trị
- Tối đa 100 tác tử con có thể thực hiện song song tối đa 1.500 lần gọi công cụ, đạt thời gian thực thi nhanh hơn tới 4,5 lần so với một tác tử đơn lẻ
- Được cung cấp qua Kimi.com, Kimi App, API và Kimi Code, hỗ trợ các chế độ Instant, Thinking, Agent và Agent Swarm (beta)
Tích hợp lập trình và thị giác
- K2.5 là mô hình lập trình mã nguồn mở có thế mạnh ở phát triển frontend, có thể tự động tạo ra các UI phức tạp như giao diện tương tác hội thoại và scroll-trigger animation
- Hỗ trợ visual coding dựa trên hình ảnh và video, cho phép người dùng biểu đạt ý định một cách trực quan rồi chuyển thành mã
- Ví dụ, có thể tái dựng website từ video hoặc tìm đường đi ngắn nhất (113.557 bước) trong ảnh mê cung bằng thuật toán BFS
- Nhờ quá trình học kết hợp vision-text quy mô lớn, năng lực thị giác và ngôn ngữ cùng được cải thiện
- Trên Kimi Code Bench nội bộ, mô hình cho thấy mức cải thiện nhất quán so với K2 trên toàn bộ các tác vụ lập trình đa ngôn ngữ như build, debug, refactor và test
- Kimi Code tích hợp với terminal và các IDE như VSCode, Cursor, Zed, đồng thời hỗ trợ đầu vào hình ảnh/video và tự động di chuyển kỹ năng
Agent Swarm
- K2.5 Agent Swarm không phải là mở rộng tác tử đơn mà là cấu trúc cộng tác song song, được huấn luyện bằng Parallel-Agent Reinforcement Learning (PARL)
- Tác tử điều phối phân rã công việc thành các tác vụ con có thể chạy song song, còn các tác tử con cố định sẽ thực thi đồng thời
- Hàm thưởng ban đầu khuyến khích khám phá tính song song, sau đó dần chuyển sang tập trung vào chất lượng tác vụ Q(τ)
- Giới thiệu chỉ số thiên về độ trễ mang tên Critical Steps để đánh giá hiệu quả của việc thực thi song song
- Trong đánh giá nội bộ, mô hình giúp rút ngắn 80% thời gian thực thi end-to-end, đồng thời cải thiện khả năng xử lý các tác vụ phức tạp kéo dài
- Ví dụ: trong bài toán tìm YouTube creator thuộc 100 lĩnh vực chi tiết, hệ thống tạo song song 100 tác tử con rồi tổng hợp kết quả
Năng suất văn phòng
- K2.5 Agent hỗ trợ tự động hóa công việc văn phòng quy mô lớn, xử lý theo kiểu hội thoại từ tài liệu, bảng tính, PDF đến tạo slide
- Trên AI Office Benchmark và General Agent Benchmark nội bộ, mô hình lần lượt cải thiện 59,3% và 24,3%
- Có thể thực hiện các tác vụ nâng cao như thêm chú thích trong Word, mô hình tài chính dựa trên Pivot Table và viết công thức LaTeX trong PDF
- Có thể hoàn thành các tác vụ dài như tạo bài báo 10.000 từ hoặc tài liệu 100 trang chỉ trong vài phút
Kết luận
- Kimi K2.5 cho thấy bước tiến ở ba lĩnh vực: lập trình dựa trên thị giác, agent swarm và tự động hóa văn phòng, qua đó chứng minh hướng tiếp cận AGI dưới các ràng buộc của thế giới thực
- Trong tương lai, hãng đặt mục tiêu tái định nghĩa ranh giới của lao động tri thức thông qua việc mở rộng agentic intelligence
Phụ lục: Kết quả benchmark chính
- So sánh với GPT-5.2, Claude 4.5, Gemini 3 Pro... trên 7 lĩnh vực như Reasoning, Vision, Coding, Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Ghi nhận hiệu năng nhóm đầu trên phần lớn benchmark về thị giác, lập trình và tìm kiếm agentic
- Mọi thí nghiệm đều được thực hiện với ngữ cảnh 256k token, temperature=1.0, top-p=0.95
- Có thể kiểm chứng độ chính xác của dịch vụ bên thứ ba thông qua Kimi Vendor Verifier (KVV)
1 bình luận
Ý kiến trên Hacker News
Xem trang Kimi-K2.5 trên Hugging Face thì đây là mô hình 1 nghìn tỷ tham số
Dựa trên giấy phép MIT, nhưng có thêm điều kiện là với các dịch vụ thương mại có hơn 100 triệu người dùng hoạt động hàng tháng hoặc doanh thu trên 20 triệu USD thì phải hiển thị “Kimi K2.5” trên UI
Về mặt kỹ thuật thì rất ấn tượng, nhưng vì đằng nào cũng không thể chạy ở nhà nên cảm giác như việc phát hành miễn phí này cũng giảm bớt khoảng một nửa rủi ro
API có nhắc đến agent swarm, nhưng tôi muốn biết liệu cả trọng số cũng được công khai hay không
“Khoảnh khắc Deepseek” đúng là đã diễn ra cách đây tròn 1 năm
So với khi đó, hiện giờ có rất nhiều công nghệ thực sự được phát hành miễn phí, và mang lại cảm giác tự do hoàn toàn khác với cách tiếp cận đóng kín như OpenAI
Nếu tính cả GLM 4.7 flash, Minimax-M2 và dòng Qwen thì mức độ đa dạng là rất lớn
Tôi đã hủy đăng ký OpenAI và Anthropic từ 2 năm trước mà không hề thấy tiếc
Ngay cả trên Reddit cũng liên tục có những bình luận “pro-deepseek” một cách kỳ lạ. Gần như kiểu marketing của Apple
Các công ty Trung Quốc chắc sẽ không tung thứ này ra chỉ vì lòng nhân ái với nhân loại
Chia sẻ một số trang hữu ích để so sánh nhiều mô hình
Kimi K2.5 có thể chạy song song tối đa 100 sub-agent và xử lý song song tối đa 1.500 lần gọi công cụ
Điều thú vị là họ không chỉ dừng ở gọi công cụ đơn thuần mà còn huấn luyện chính việc điều phối agent bằng học tăng cường (RL)
Thông thường mô hình sẽ xuất ra “call tool X”, rồi IDE thực thi và gửi kết quả ngược lại
Tôi đang thấy hiệu quả tương tự với TeammateTool của Claude Code
Ngoài K2.5, Moonshot AI cũng đã ra mắt Kimi Code
Đây là agent coding trên terminal phát triển từ Kimi CLI trước đó; tôi đã dùng từ tháng trước và thấy khá ổn định
GitHub: MoonshotAI/kimi-cli
Có zsh hook nên có thể chuyển sang chế độ agent ở bất kỳ đâu
Điều thú vị ở K2.5 là nó được huấn luyện để tự động tạo sub-agent và tổ chức swarm
Tương tự sub-agent động của Claude Code, nhưng có thể tự chủ xử lý nhiều agent hơn rất nhiều
Tôi cũng mong chờ xem Claude có đang huấn luyện theo hướng tương tự không, và liệu bản tiếp theo có công bố điều đó không
Gần đây các mô hình Trung Quốc đang lấy Claude Opus làm mốc benchmark
Cả Qwen3 max thinking lẫn Kimi K2.5 đều so sánh với Opus chứ không phải Sonnet. Họ gần như đang bắt kịp với tốc độ tương đương
Kimi K2 từng được nhận xét là có trí tuệ cảm xúc (emotional intelligence) cao
Tôi tò mò K2.5 có giữ được đặc tính đó hay không
Điểm CCP-bench đã cải thiện đáng kể ở K2.5
Xem hình liên quan
Chúc mừng thành quả của đội ngũ Kimi
Nhưng tôi vẫn tò mò vì sao Claude vẫn đứng số 1 ở mảng coding. Là vì được huấn luyện chuyên biệt cho coding, hay do chất lượng học tổng thể tốt hơn
Mong sẽ có ai đó đánh bại Opus 4.5 trong coding
Thậm chí đôi khi các mô hình còn bị overfit vào benchmark
Tôi đã dùng cả GPT5.2 và Opus 4.5, và hiệu năng coding thực tế gần như giống nhau
Hơn nữa K2.5 chỉ có giá bằng khoảng 1/5 các mô hình cao cấp nên rất đáng kỳ vọng
Opus thường hay đưa vào những tầng trừu tượng không cần thiết hoặc hardcode