3 điểm bởi GN⁺ 2026-01-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Kimi K2.5mô hình đa phương thức mã nguồn mở được huấn luyện bổ sung với khoảng 1,5 nghìn tỷ token thị giác và văn bản, tích hợp khả năng viết mã và xử lý thị giác
  • Thông qua kiến trúc Agent Swarm điều phối song song tối đa 100 tác tử con, mô hình có thể thực hiện các tác vụ phức tạp nhanh hơn 4,5 lần
  • Được liên kết với Kimi CodeKimi App, hỗ trợ nhiều tính năng thực tiễn như lập trình dựa trên hình ảnh/video, gỡ lỗi trực quan và tự động hóa công việc văn phòng
  • Trong benchmark nội bộ, mô hình ghi nhận mức cải thiện hiệu năng có ý nghĩa so với K2 trên toàn bộ các mảng lập trình, thị giác và năng suất văn phòng
  • Trong cộng đồng mã nguồn mở, mô hình được đánh giá là bước tiến thực chất hướng tới AGI (trí tuệ nhân tạo tổng quát)

Tổng quan về Kimi K2.5

  • Kimi K2.5 là mô hình đa phương thức native được tiền huấn luyện bổ sung dựa trên mô hình K2 với khoảng 1,5 nghìn tỷ token thị giác-văn bản hỗn hợp
    • Tích hợp năng lực lập trìnhthị giác, đồng thời hiện thực hóa mô hình agent swarm tự trị
  • Tối đa 100 tác tử con có thể thực hiện song song tối đa 1.500 lần gọi công cụ, đạt thời gian thực thi nhanh hơn tới 4,5 lần so với một tác tử đơn lẻ
  • Được cung cấp qua Kimi.com, Kimi App, API và Kimi Code, hỗ trợ các chế độ Instant, Thinking, Agent và Agent Swarm (beta)

Tích hợp lập trình và thị giác

  • K2.5 là mô hình lập trình mã nguồn mở có thế mạnh ở phát triển frontend, có thể tự động tạo ra các UI phức tạp như giao diện tương tác hội thoại và scroll-trigger animation
  • Hỗ trợ visual coding dựa trên hình ảnh và video, cho phép người dùng biểu đạt ý định một cách trực quan rồi chuyển thành mã
    • Ví dụ, có thể tái dựng website từ video hoặc tìm đường đi ngắn nhất (113.557 bước) trong ảnh mê cung bằng thuật toán BFS
  • Nhờ quá trình học kết hợp vision-text quy mô lớn, năng lực thị giác và ngôn ngữ cùng được cải thiện
  • Trên Kimi Code Bench nội bộ, mô hình cho thấy mức cải thiện nhất quán so với K2 trên toàn bộ các tác vụ lập trình đa ngôn ngữ như build, debug, refactor và test
  • Kimi Code tích hợp với terminal và các IDE như VSCode, Cursor, Zed, đồng thời hỗ trợ đầu vào hình ảnh/video và tự động di chuyển kỹ năng

Agent Swarm

  • K2.5 Agent Swarm không phải là mở rộng tác tử đơn mà là cấu trúc cộng tác song song, được huấn luyện bằng Parallel-Agent Reinforcement Learning (PARL)
    • Tác tử điều phối phân rã công việc thành các tác vụ con có thể chạy song song, còn các tác tử con cố định sẽ thực thi đồng thời
  • Hàm thưởng ban đầu khuyến khích khám phá tính song song, sau đó dần chuyển sang tập trung vào chất lượng tác vụ Q(τ)
  • Giới thiệu chỉ số thiên về độ trễ mang tên Critical Steps để đánh giá hiệu quả của việc thực thi song song
  • Trong đánh giá nội bộ, mô hình giúp rút ngắn 80% thời gian thực thi end-to-end, đồng thời cải thiện khả năng xử lý các tác vụ phức tạp kéo dài
    • Ví dụ: trong bài toán tìm YouTube creator thuộc 100 lĩnh vực chi tiết, hệ thống tạo song song 100 tác tử con rồi tổng hợp kết quả

Năng suất văn phòng

  • K2.5 Agent hỗ trợ tự động hóa công việc văn phòng quy mô lớn, xử lý theo kiểu hội thoại từ tài liệu, bảng tính, PDF đến tạo slide
  • Trên AI Office BenchmarkGeneral Agent Benchmark nội bộ, mô hình lần lượt cải thiện 59,3%24,3%
  • Có thể thực hiện các tác vụ nâng cao như thêm chú thích trong Word, mô hình tài chính dựa trên Pivot Table và viết công thức LaTeX trong PDF
  • Có thể hoàn thành các tác vụ dài như tạo bài báo 10.000 từ hoặc tài liệu 100 trang chỉ trong vài phút

Kết luận

  • Kimi K2.5 cho thấy bước tiến ở ba lĩnh vực: lập trình dựa trên thị giác, agent swarmtự động hóa văn phòng, qua đó chứng minh hướng tiếp cận AGI dưới các ràng buộc của thế giới thực
  • Trong tương lai, hãng đặt mục tiêu tái định nghĩa ranh giới của lao động tri thức thông qua việc mở rộng agentic intelligence

Phụ lục: Kết quả benchmark chính

  • So sánh với GPT-5.2, Claude 4.5, Gemini 3 Pro... trên 7 lĩnh vực như Reasoning, Vision, Coding, Agentic Search
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • Ghi nhận hiệu năng nhóm đầu trên phần lớn benchmark về thị giác, lập trình và tìm kiếm agentic
  • Mọi thí nghiệm đều được thực hiện với ngữ cảnh 256k token, temperature=1.0, top-p=0.95
  • Có thể kiểm chứng độ chính xác của dịch vụ bên thứ ba thông qua Kimi Vendor Verifier (KVV)

1 bình luận

 
GN⁺ 2026-01-28
Ý kiến trên Hacker News
  • Xem trang Kimi-K2.5 trên Hugging Face thì đây là mô hình 1 nghìn tỷ tham số
    Dựa trên giấy phép MIT, nhưng có thêm điều kiện là với các dịch vụ thương mại có hơn 100 triệu người dùng hoạt động hàng tháng hoặc doanh thu trên 20 triệu USD thì phải hiển thị “Kimi K2.5” trên UI

    • 1 nghìn tỷ thì ngay cả với int4 cũng có lẽ cần khoảng nửa terabyte VRAM
      Về mặt kỹ thuật thì rất ấn tượng, nhưng vì đằng nào cũng không thể chạy ở nhà nên cảm giác như việc phát hành miễn phí này cũng giảm bớt khoảng một nửa rủi ro
    • Các nhà phát triển Cursor từng cố che giấu việc mô hình Composer dựa trên GLM, nên đây có lẽ là tin khá khó chịu với họ
    • Tôi tò mò không biết thinking, instruct, agent và agent swarm(beta) của Kimi K2.5 có phải đều là mã nguồn mở hay không
      API có nhắc đến agent swarm, nhưng tôi muốn biết liệu cả trọng số cũng được công khai hay không
    • Đọc điều khoản “nếu doanh thu trên 20 triệu USD thì phải hiển thị Kimi K2.5 trên UI”, tôi thấy thà nói thẳng là “trả 1 triệu USD đi” còn hơn
  • Khoảnh khắc Deepseek” đúng là đã diễn ra cách đây tròn 1 năm
    So với khi đó, hiện giờ có rất nhiều công nghệ thực sự được phát hành miễn phí, và mang lại cảm giác tự do hoàn toàn khác với cách tiếp cận đóng kín như OpenAI

    • Ngay cả sau DeepSeekR1, tốc độ phát triển của các mô hình Trung Quốc như v3-0324, v3.1, v3.1-terminus, v3.2-speciale cũng rất đáng kinh ngạc
      Nếu tính cả GLM 4.7 flash, Minimax-M2 và dòng Qwen thì mức độ đa dạng là rất lớn
      Tôi đã hủy đăng ký OpenAI và Anthropic từ 2 năm trước mà không hề thấy tiếc
    • Đây không phải ngẫu nhiên. Các công ty Trung Quốc thường tung ra các bản phát hành lớn trước Tết Nguyên đán, nên trước ngày 17/2 rất có thể còn có thêm sản phẩm mới
    • Tôi tò mò vì sao họ lại công bố miễn phí những mô hình lớn như vậy. Tự hỏi mô hình kinh doanh của họ là gì
    • Tôi nghĩ Deepseek trên thực tế là một dự án thiên về marketing
      Ngay cả trên Reddit cũng liên tục có những bình luận “pro-deepseek” một cách kỳ lạ. Gần như kiểu marketing của Apple
    • Nhưng những mô hình như vậy cũng có thể bị lạm dụng cho tấn công bảo mật hoặc tấn công sinh học
      Các công ty Trung Quốc chắc sẽ không tung thứ này ra chỉ vì lòng nhân ái với nhân loại
  • Chia sẻ một số trang hữu ích để so sánh nhiều mô hình

  • Kimi K2.5 có thể chạy song song tối đa 100 sub-agent và xử lý song song tối đa 1.500 lần gọi công cụ
    Điều thú vị là họ không chỉ dừng ở gọi công cụ đơn thuần mà còn huấn luyện chính việc điều phối agent bằng học tăng cường (RL)

    • Nhưng 1.500 lần gọi công cụ là một ác mộng về cấu trúc chi phí. Chỉ vài chục bước thôi là biên lợi nhuận đã sụp đổ, nên nếu không có vốn VC thì có vẻ khó bền vững
    • Tôi tò mò “self-direct an agent swarm” là chức năng bên trong mô hình hay được triển khai ở cấp IDE/dịch vụ
      Thông thường mô hình sẽ xuất ra “call tool X”, rồi IDE thực thi và gửi kết quả ngược lại
    • Agent song song là một mẹo đơn giản nhưng mạnh mẽ
      Tôi đang thấy hiệu quả tương tự với TeammateTool của Claude Code
  • Ngoài K2.5, Moonshot AI cũng đã ra mắt Kimi Code
    Đây là agent coding trên terminal phát triển từ Kimi CLI trước đó; tôi đã dùng từ tháng trước và thấy khá ổn định
    GitHub: MoonshotAI/kimi-cli

    • Nó không chỉ là một coding agent đơn thuần mà còn đóng vai trò như shell
      Có zsh hook nên có thể chuyển sang chế độ agent ở bất kỳ đâu
    • Tôi tò mò không biết nó có hỗ trợ tính năng swarm hay không, và liệu có hỗ trợ Opencode không
    • Cũng muốn biết hiệu năng của nó ra sao khi so với CC
  • Điều thú vị ở K2.5 là nó được huấn luyện để tự động tạo sub-agent và tổ chức swarm
    Tương tự sub-agent động của Claude Code, nhưng có thể tự chủ xử lý nhiều agent hơn rất nhiều
    Tôi cũng mong chờ xem Claude có đang huấn luyện theo hướng tương tự không, và liệu bản tiếp theo có công bố điều đó không

  • Gần đây các mô hình Trung Quốc đang lấy Claude Opus làm mốc benchmark
    Cả Qwen3 max thinking lẫn Kimi K2.5 đều so sánh với Opus chứ không phải Sonnet. Họ gần như đang bắt kịp với tốc độ tương đương

    • Trên clocks.brianmoore.com, K2 là một trong số rất ít mô hình vượt qua hoàn hảo bài kiểm tra đồng hồ
    • Các phòng thí nghiệm Trung Quốc có xu hướng chưng cất (distill) các mô hình SOTA phương Tây rồi bắt kịp trong vài tháng
    • Trên benchmark thì có vẻ tương đương, nhưng về tính hữu dụng thực tế thì các mô hình của Anthropic vẫn đang dẫn trước
    • Cuối cùng thì kịch bản sử dụng thực tế mới là quan trọng hơn. Chỉ dựa vào điểm benchmark thì khó đánh giá
  • Kimi K2 từng được nhận xét là có trí tuệ cảm xúc (emotional intelligence) cao
    Tôi tò mò K2.5 có giữ được đặc tính đó hay không

    • Tôi cũng có cùng ấn tượng. Thật sự rất tò mò họ đã hiện thực hóa kiểu phản hồi cảm xúc đó như thế nào
    • Tôi định sẽ thử trên mafia-arena.com
    • Dù khá chủ quan, nhưng tôi thấy nó mang cảm giác con người hơn cả Gemini 3, GPT 5.2 và Opus 4.5
  • Điểm CCP-bench đã cải thiện đáng kể ở K2.5
    Xem hình liên quan

  • Chúc mừng thành quả của đội ngũ Kimi
    Nhưng tôi vẫn tò mò vì sao Claude vẫn đứng số 1 ở mảng coding. Là vì được huấn luyện chuyên biệt cho coding, hay do chất lượng học tổng thể tốt hơn
    Mong sẽ có ai đó đánh bại Opus 4.5 trong coding

    • Chênh lệch benchmark gần như không có nhiều ý nghĩa. Nhiễu trong môi trường coding thực tế lớn hơn nhiều
      Thậm chí đôi khi các mô hình còn bị overfit vào benchmark
      Tôi đã dùng cả GPT5.2 và Opus 4.5, và hiệu năng coding thực tế gần như giống nhau
      Hơn nữa K2.5 chỉ có giá bằng khoảng 1/5 các mô hình cao cấp nên rất đáng kỳ vọng
    • Tôi dùng Gemini Pro thay vì Opus, vì nó tái thiết kế cấu trúc code để phản ánh yêu cầu tốt hơn
      Opus thường hay đưa vào những tầng trừu tượng không cần thiết hoặc hardcode
    • Gemini 3 Pro đặc biệt vượt trội hơn hẳn trên các codebase lớn
    • Opus 4.5 là mô hình ra mắt cách đây hai tháng, và là kết quả của việc Anthropic tập trung đặc biệt vào hiệu năng coding