Ra mắt Kimi K2.6 - Bước tiến của lập trình mã nguồn mở

(kimi.com)

4 điểm bởi GN⁺ 1 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

Là mô hình nâng cao hiệu năng trong lập trình dài hạn và các tác vụ dạng tác nhân, tăng cường khả năng tổng quát hóa trên nhiều ngôn ngữ cũng như toàn bộ mảng frontend, devops và tối ưu hiệu năng
Xử lý các tác vụ kỹ thuật phức tạp bằng lập trình chạy liên tục, ghi nhận mức tăng thông lượng lớn trong tối ưu suy luận Zig và cuộc đại tu toàn diện exchange-core sau hàng nghìn lần gọi công cụ và hơn 12 giờ chạy liên tục
Biến các prompt đơn giản thành giao diện frontend hoàn chỉnh, đồng thời tận dụng cả công cụ tạo ảnh và video, hỗ trợ quy trình full-stack đơn giản bao gồm xác thực và tác vụ cơ sở dữ liệu
Mở rộng cấu trúc Agent Swarm lên quy mô 300 tác nhân con và 4.000 bước điều phối để chạy song song các tác vụ tìm kiếm, nghiên cứu, soạn tài liệu và tạo tệp, đồng thời chuyển định dạng và phong cách của PDF, slide, bảng tính và tài liệu Word thành các skills có thể tái sử dụng
Mở rộng phạm vi sang tác nhân chủ động và Claw Groups để vận hành tự chủ dài hạn, cộng tác đa tác nhân và phân bổ lại công việc, đồng thời xác nhận cải thiện về lập trình, gọi công cụ và độ tin cậy khi chạy dài hạn qua benchmark và beta test doanh nghiệp

Lập trình dài hạn

Xác nhận hiệu năng được cải thiện trong các tác vụ lập trình dài hạn, tăng cường khả năng tổng quát hóa trên nhiều ngôn ngữ như Rust, Go, Python và trên nhiều loại tác vụ như frontend, devops, tối ưu hiệu năng
- Trên benchmark lập trình nội bộ Kimi Code Bench, ghi nhận cải thiện lớn so với Kimi K2.5 trên các tác vụ end-to-end phức tạp
Thực hiện lập trình chạy liên tục trong các tác vụ kỹ thuật phức tạp
- Tải xuống và triển khai thành công mô hình Qwen3.5-0.8B trong môi trường local trên Mac
- Triển khai và tối ưu suy luận mô hình bằng Zig, một ngôn ngữ tương đối đặc thù, qua đó chứng minh khả năng tổng quát hóa ngoài phân phối
- Sau hơn 4.000 lần gọi công cụ, hơn 12 giờ chạy liên tục và 14 vòng lặp, thông lượng được nâng từ khoảng 15 tokens/sec lên khoảng 193 tokens/sec
- Tốc độ cuối cùng nhanh hơn khoảng 20% so với LM Studio
Thực hiện đại tu toàn diện exchange-core, một engine khớp lệnh tài chính mã nguồn mở đã 8 năm tuổi
- Trong 13 giờ chạy, lặp lại 12 chiến lược tối ưu và tinh chỉnh chính xác hơn 4.000 dòng mã thông qua hơn 1.000 lần gọi công cụ
- Phân tích flame graph cho phân bổ CPU và bộ nhớ để xác định các nút thắt tiềm ẩn
- Tái cấu trúc topology luồng lõi từ 4ME+2RE thành 2ME+1RE
- Trên một engine vốn đã gần chạm trần hiệu năng, đạt mức tăng 185% ở thông lượng trung bình (0.43→1.24 MT/s) và mức tăng 133% ở thông lượng hiệu năng (1.23→2.86 MT/s)
Trong các đánh giá doanh nghiệp ở giai đoạn beta test cũng ghi nhận nhiều phản hồi tích cực về độ tin cậy của lập trình dài hạn và chất lượng gọi công cụ
- Baseten cho biết hiệu năng tác vụ lập trình ở mức tương đương các mô hình đóng hàng đầu, chất lượng gọi công cụ mạnh nhờ hiểu framework bên thứ ba và phù hợp với các tác vụ kỹ thuật phức tạp, dài hạn
- Blackbox cho rằng đây là chuẩn mới cho mô hình mã nguồn mở trong workflow lập trình dài hạn và dạng tác nhân, có khả năng xử lý tác vụ đa bước phức tạp, chất lượng mã cao, ổn định trong các phiên kéo dài và phát hiện lỗi không hiển nhiên
- CodeBuddy ghi nhận độ chính xác sinh mã tăng 12%, độ ổn định ngữ cảnh dài cải thiện 18% và tỷ lệ thành công khi gọi công cụ đạt 96,60% so với K2.5
- Factory báo cáo cải thiện 15% trong đánh giá so sánh song song với benchmark nội bộ
- Fireworks nhấn mạnh độ tin cậy ở các đoạn chạy dài và khả năng tuân thủ chỉ dẫn là những điểm cải thiện lớn nhất
- Hermes Agent đề cập đến sự gắn kết giữa gọi công cụ và vòng lặp tác nhân, năng lực lập trình tốt hơn và phạm vi sáng tạo mở rộng
- Kilo nhấn mạnh hiệu năng cấp SOTA so với chi phí thấp và thế mạnh ở các tác vụ ngữ cảnh dài trên toàn bộ codebase
- Ollama đề cập đến mức phù hợp cho lập trình và công cụ tác nhân, sự ổn định trong các phiên dài nhiều bước và khả năng tích hợp ngay với các tích hợp hiện có
- OpenCode đề cập đến độ ổn định của việc phân rã tác vụ và gọi công cụ, giảm overhead lặp lại và tăng độ tin cậy của trải nghiệm end-to-end
- Qoder nhắc đến việc tăng tần suất gọi công cụ và mô hình, tăng tính chủ động khi thực thi tác vụ, giảm gián đoạn và độ trễ chờ của người dùng
- Vercel cho biết benchmark Next.js cải thiện hơn 50%, đạt hiệu năng nhóm đầu trên nền tảng và phù hợp cho lập trình dạng tác nhân cũng như tạo frontend nhờ hiệu quả chi phí

Thiết kế lấy lập trình làm trung tâm

Dựa trên năng lực lập trình mạnh, có thể chuyển các prompt đơn giản thành giao diện frontend hoàn chỉnh
- Tạo layout có cấu trúc với hero section giàu tính thẩm mỹ, các yếu tố tương tác và hiệu ứng kích hoạt theo cuộn cùng hoạt ảnh phong phú
Dựa trên khả năng tận dụng công cụ tạo ảnh và video, hỗ trợ tạo tài sản thị giác nhất quán
- Góp phần tạo ra các hero section nổi bật hơn và có chất lượng cao hơn
Mở rộng vượt ra ngoài frontend tĩnh tới cả quy trình full-stack đơn giản
- Bao gồm xác thực, tương tác người dùng và tác vụ cơ sở dữ liệu
- Hỗ trợ các trường hợp sử dụng nhẹ như lịch sử giao dịch hoặc quản lý phiên
Xây dựng benchmark nội bộ Kimi Design Bench
- Gồm bốn hạng mục: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- So với Google AI Studio, ghi nhận kết quả hứa hẹn và hiệu năng tốt ở nhiều hạng mục
Cung cấp các sản phẩm mẫu do K2.6 Agent tạo ra
- Kết quả được tạo từ một prompt duy nhất cùng harness và công cụ được cấu hình sẵn
- Về mặt thẩm mỹ, bao gồm thiết kế frontend đẹp mắt với tương tác phong phú
- Về mặt chức năng, bao gồm cơ sở dữ liệu tích hợp và xác thực
- Về mặt tận dụng công cụ, bao gồm website được hoàn thiện bằng công cụ tạo ảnh và video

Agent Swarm được nâng cấp

Áp dụng cấu trúc tập trung vào mở rộng theo chiều ngang chứ không chỉ chiều dọc
- Agent Swarm động phân rã công việc thành các tác vụ con không đồng nhất, rồi các tác nhân chuyên biệt theo miền do chính nó tạo ra sẽ thực thi song song
Dựa trên bản research preview K2.5 Agent Swarm, Kimi K2.6 Agent Swarm cho thấy bước nhảy vọt về chất lượng trải nghiệm
- Kết hợp tìm kiếm rộng với nghiên cứu sâu
- Kết hợp phân tích tài liệu quy mô lớn với viết dài
- Chạy song song việc tạo nội dung ở nhiều định dạng
- Cung cấp đầu ra end-to-end bao trùm tài liệu, website, slide và bảng tính trong một lần chạy tự trị duy nhất
Mở rộng quy mô mở rộng theo chiều ngang của kiến trúc
- 300 tác nhân con thực thi đồng thời 4.000 bước điều phối
- Tăng mạnh so với 100 tác nhân con và 1.500 bước của K2.5
- Song song hóa quy mô lớn giúp giảm độ trễ end-to-end, nâng chất lượng đầu ra và mở rộng ranh giới vận hành của Agent Swarm
Có thể chuyển các tệp chất lượng cao như PDF, bảng tính, slide và tài liệu Word thành Skills
- Nắm bắt và duy trì đặc tính cấu trúc cũng như phong cách của tài liệu
- Có thể tái tạo cùng chất lượng và định dạng đó trong các tác vụ sau
Đưa ra nhiều ví dụ tác vụ
- Thiết kế và thực thi 5 chiến lược định lượng trên 100 tài sản bán dẫn toàn cầu, rút ra PPT phong cách McKinsey thành skill có thể tái sử dụng, đồng thời cung cấp bảng tính mô hình hóa chi tiết và bộ tài liệu trình bày hoàn chỉnh cho ban điều hành
- Chuyển một bài báo thiên vật lý chất lượng cao với dữ liệu trực quan phong phú thành skill học thuật có thể tái sử dụng, rút ra luồng suy luận và cách trực quan hóa, đồng thời tạo bài nghiên cứu 40 trang, 7.000 từ, bộ dữ liệu có cấu trúc hơn 20.000 mục và 14 biểu đồ cấp độ thiên văn học
- Tạo 100 tác nhân con dựa trên CV được tải lên để ghép 100 vị trí phù hợp tại California, đồng thời cung cấp bộ dữ liệu cơ hội có cấu trúc và 100 CV tùy chỉnh
- Xác định 30 cửa hàng bán lẻ ở Los Angeles không có website chính thức trên Google Maps, rồi tạo landing page tập trung vào tỷ lệ chuyển đổi cho từng cửa hàng

Tác nhân chủ động

Ghi nhận hiệu năng mạnh ở các tác nhân tự trị và chủ động như OpenClaw và Hermes
- Hỗ trợ kiểu vận hành 24 giờ mỗi ngày, 7 ngày mỗi tuần xuyên suốt nhiều ứng dụng
Hỗ trợ các workflow khác với tương tác chat đơn thuần
- Cần thực hiện quản lý lịch, chạy mã và điều phối công việc xuyên nền tảng dưới dạng tác nhân nền hoạt động liên tục
Nhóm hạ tầng RL đã dùng tác nhân dựa trên K2.6 để vận hành tự trị trong 5 ngày
- Phụ trách giám sát, ứng phó sự cố và vận hành hệ thống
- Chứng minh khả năng duy trì ngữ cảnh bền vững, xử lý tác vụ đa luồng và vận hành toàn bộ vòng đời từ phát sinh cảnh báo tới xử lý xong
- Có nhắc đến log tác vụ đã được loại bỏ thông tin nhạy cảm
Đo lường cải thiện độ tin cậy trong môi trường thực tế
- Diễn giải API chính xác hơn
- Hiệu năng chạy dài hạn ổn định hơn
- Nhận thức an toàn tốt hơn trong các tác vụ nghiên cứu dài hạn
Định lượng mức cải thiện bằng bộ đánh giá nội bộ Claw Bench
- Bao gồm năm lĩnh vực: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- Trên toàn bộ chỉ số, tỷ lệ hoàn thành tác vụ và độ chính xác khi gọi công cụ đều cải thiện mạnh so với Kimi K2.5
- Đặc biệt ghi nhận cải thiện rõ ở các workflow đòi hỏi vận hành tự trị liên tục mà không có giám sát của con người

Bring Your Own Agents

Dựa trên năng lực điều phối mạnh, mở rộng tác nhân chủ động thành Claw Groups
- Được giới thiệu dưới dạng research preview như một hình thức triển khai mới của kiến trúc Agent Swarm
Chấp nhận một hệ sinh thái mở và dị thể
- Nhiều tác nhân và con người cùng hoạt động như các cộng tác viên thực thụ
- Người dùng có thể onboard tác nhân từ bất kỳ thiết bị nào, chạy bằng bất kỳ mô hình nào
- Mỗi tác nhân có bộ công cụ, skill và ngữ cảnh bộ nhớ bền vững riêng
- Các tác nhân trong nhiều môi trường như laptop local, thiết bị di động hay cloud instance được tích hợp tự nhiên vào không gian vận hành chung
Ở trung tâm, Kimi K2.6 đóng vai trò điều phối viên thích ứng
- Phân bổ công việc động dựa trên hồ sơ skill và các công cụ sẵn có của từng tác nhân
- Tối ưu hóa công việc theo năng lực phù hợp
- Khi phát hiện tác nhân thất bại hoặc đình trệ, hệ thống sẽ phân công lại công việc hoặc tái tạo tác vụ con
- Chủ động quản lý toàn bộ vòng đời đầu ra từ khởi tạo, kiểm chứng tới hoàn tất
Bao gồm các trường hợp sử dụng nội bộ của Claw Groups
- Dùng nội bộ một đội marketing tác nhân để thực sự tinh chỉnh workflow người–tác nhân
- Các tác nhân chuyên biệt như Demo Makers, Benchmark Makers, Social Media Agents, Video Makers cùng phối hợp
- Vận hành sản xuất nội dung end-to-end và chiến dịch phát hành
- K2.6 điều phối việc chia sẻ kết quả trung gian và chuyển ý tưởng thành đầu ra hoàn chỉnh, nhất quán
Mở rộng quan hệ giữa con người và AI vượt khỏi hỏi đáp hay giao việc đơn giản để trở thành quan hệ đối tác cộng tác thực chất
- Gợi mở một tương lai nơi ranh giới giữa "my agent", "your agent", "our team" dần biến mất một cách tự nhiên trong hệ thống cộng tác

Bảng benchmark

Các số liệu chính trong mảng Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 lần lượt là 74.9 và 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
Các số liệu chính trong mảng Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
Các số liệu chính trong mảng Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
Các số liệu chính trong mảng Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
Để tái hiện kết quả benchmark chính thức của Kimi-K2.6, khuyến nghị dùng API chính thức
- Khi chọn nhà cung cấp bên thứ ba, có kèm hướng dẫn tham khảo Kimi Vendor Verifier (KVV)

Chú thích

Chi tiết kiểm thử chung
- Kimi K2.6 và Kimi K2.5 được báo cáo kết quả trong điều kiện thinking mode enabled, Claude Opus 4.6 ở max effort, GPT-5.4 ở xhigh reasoning effort, Gemini 3.1 Pro ở high thinking level
- Trừ khi có ghi chú riêng, các thí nghiệm với Kimi K2.6 được thực hiện với temperature 1.0, top-p 1.0, độ dài ngữ cảnh 262.144 tokens
- Các benchmark không có điểm công khai đã được đánh giá lại trong cùng điều kiện với Kimi K2.6 và được đánh dấu bằng dấu sao (*)
- Các kết quả không có dấu sao là trích dẫn từ báo cáo chính thức
Benchmark suy luận
- Điểm IMO-AnswerBench của GPT-5.4 và Claude 4.6 được lấy từ blog z.ai
- Humanity's Last Exam (HLE) và các tác vụ suy luận khác được đánh giá với độ dài sinh tối đa 98.304 tokens
- Giá trị báo cáo mặc định là toàn bộ tập HLE
- Trên tập con chỉ văn bản, Kimi K2.6 ghi nhận 36,4% accuracy không dùng công cụ và 55,5% accuracy khi có công cụ
Tác vụ dạng tác nhân và tăng cường bằng công cụ
- HLE with tools, BrowseComp, DeepSearchQA, WideSearch được trang bị các công cụ search, code-interpreter, web-browsing
- HLE-Full with tools có độ dài sinh tối đa 262.144 tokens và giới hạn mỗi bước 49.152 tokens
- Khi cửa sổ ngữ cảnh vượt ngưỡng, áp dụng chiến lược quản lý ngữ cảnh đơn giản chỉ giữ lại vòng thông điệp liên quan công cụ gần nhất
- Điểm BrowseComp được thu thập với cách quản lý ngữ cảnh theo chiến lược discard-all giống Kimi K2.5 và DeepSeek-V3.2
- Trong DeepSearchQA, bài test Kimi K2.6 không áp dụng quản lý ngữ cảnh, và các tác vụ vượt độ dài ngữ cảnh hỗ trợ được tính trực tiếp là thất bại
- Điểm DeepSearchQA của Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro được trích từ Claude Opus 4.7 System Card
- WideSearch báo cáo kết quả với thiết lập quản lý ngữ cảnh hide tool result
- System prompt dùng khi test giống với Kimi K2.5 technical report
- Claw Eval được thực hiện với version 1.1, max-tokens-per-step 16384
- APEX-Agents đánh giá 452 tác vụ trong tổng số 480 tác vụ công khai
  - Tương tự Artificial Analysis, loại trừ Investment Banking Worlds 244, 246
  - Lý do loại trừ là phụ thuộc runtime bên ngoài
Tác vụ lập trình
- Điểm Terminal-Bench 2.0 được thu bằng framework tác nhân mặc định Terminus-2 và JSON parser được cung cấp, với chế độ preserve thinking mode
- Các đánh giá họ SWE-Bench (bao gồm Verified, Multilingual, Pro) sử dụng framework đánh giá nội bộ được cải biên dựa trên SWE-agent
- Cấu hình công cụ của framework này là tập tối thiểu gồm bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
- Tất cả các điểm số báo cáo cho tác vụ lập trình đều là giá trị trung bình của 10 lần chạy độc lập
Benchmark thị giác
- Áp dụng max-tokens 98.304 và trung bình 3 lần chạy (avg@3)
- Khi bật công cụ Python, suy luận đa bước được thực hiện với max-tokens-per-step 65.536 và max-steps 50
- MMMU-Pro tuân theo giao thức chính thức, giữ nguyên thứ tự đầu vào và đặt hình ảnh lên trước

2 bình luận

GN⁺ 1 ngày trước

Ý kiến từ Hacker News

Tôi đã thử dùng qua OpenRouter, và điều gây ấn tượng là model này không chỉ dừng ở việc vẽ một con bồ nông SVG, mà còn bọc nó trong HTML có thể điều chỉnh tốc độ hoạt ảnh khi xuất ra. Lịch sử trò chuyện và HTML có ở gist này, còn ví dụ chạy thử có thể xem tại liên kết này
- Giờ thì tôi có cảm giác mấy SVG bồ nông kiểu này hẳn đã được đưa vào tập dữ liệu huấn luyện rồi
- Cái này cho cảm giác đúng kiểu quá mức tận tụy, và cái tên Kimi cũng nghe như một học sinh gương mẫu vậy
- Tiếc là có vẻ họ không dồn cùng mức chăm chút cho chân và bàn chân của con bồ nông. Chân trái thì đứng im như bị liệt, còn mắt cá chân phải quay tít một cách khá đáng lo
- Tôi đã dùng từ hồi beta và đó là một model khá ổn, có lúc còn khiến tôi quên mất mình đang dùng model khác chứ không phải Opus hay GPT. Dù vậy Opus vẫn tốt hơn, còn theo cảm nhận của tôi thì phía GPT có vẻ chật vật hơn. Trong công việc backend thì nó có đôi chút ngách riêng, nhưng nếu đủ giỏi thì với Opus cũng giải quyết tương tự được, và nhìn chung điểm yếu vẫn nhiều hơn
- Tôi thực sự tò mò không hiểu mục đích của việc đăng cái này ở gần như mọi thread về model mới là gì. Có thể là tôi già rồi nên khó tính, nhưng thứ này đã nhàm chán từ lâu và cho cảm giác như bình luận Reddit ít công sức
Nhìn vào benchmark ban đầu thì Kimi K2.6 đã cải thiện rất nhiều so với Kimi K2 Thinking. Model trước đó có kết quả không tốt trong benchmark của chúng tôi, và phần lượng tử hóa cũng đã dùng cấu hình tốt nhất. Hiện tại Kimi K2.6 đang thuộc nhóm đầu trong số các model open-weight về suy luận lập trình one-shot, nhỉnh hơn GLM 5.1 một chút, và đủ sức cạnh tranh với các model SOTA cách đây khoảng 3 tháng, nên có vẻ cùng tầm với Gemini 3.1 Pro Preview. Các bài test kiểu agent vẫn đang được tiến hành, và model open-weight thường yếu trong workflow agent ngữ cảnh dài, nhưng GLM 5.1 đã trụ khá tốt nên tôi rất tò mò về kết quả của Kimi. Tuy vậy cả bản cũ lẫn bản mới đều hơi chậm, nên tính thực dụng trong agent coding có thể bị hạn chế. Kimi K2 trước đây tối ưu benchmark rất mạnh và có vẻ hứng thú hơn với biến thể và nhiệt độ thay vì giải quyết vấn đề khó, còn model lần này trông giống một model đa dụng mạnh hơn nhiều. Tổng thể thì phe open-weight đang trông rất tốt, gần như tuần nào cũng có một model mới cấp frontier xuất hiện. Benchmark chi tiết có thể xem tại gertlabs
- Tôi tò mò không biết K2.6 so với Sonnet 4.6 thì giá và hiệu năng ở mức nào
- Tôi khá bất ngờ khi độ chênh hiệu năng theo từng ngôn ngữ lại lớn đến vậy
Có một nét mỉa mai thú vị ở chỗ Trung Quốc có lẽ đang thúc đẩy công nghệ quan trọng nhất thế giới theo hướng mã nguồn mở, còn Mỹ thì lại đi theo hướng ngược lại
- Theo tôi, một trong các động cơ là kiềm chế doanh nghiệp Mỹ. OpenAI và Anthropic là hai tay chơi lớn nhất, và cả hai đều là công ty Mỹ, nên càng có nhiều model open-weight thì mức độ thống trị ngành của họ càng suy yếu. Nếu các công ty Trung Quốc chọn chiến lược model đóng kiểu Mỹ thì phần lớn mọi người vẫn có xu hướng dùng ChatGPT hoặc Claude, nên nếu đằng nào cũng khó kiếm lợi nhuận lớn thì phát hành open-weight để bào mòn siêu lợi nhuận của công ty Mỹ có vẻ thực tế hơn
- Tôi nghĩ các bước tiến công nghệ lớn cuối cùng đều được tăng tốc nhờ sự mở. Chỉ cần nhìn vào iPhone là thấy GPS, Internet, trợ lý giọng nói, màn hình cảm ứng, vi xử lý, pin lithium-ion cùng nhiều công nghệ cốt lõi khác đều bắt nguồn từ nghiên cứu do chính phủ tài trợ hoặc nghiên cứu gần như công khai. Doanh nghiệp tư nhân không đời nào tự dưng mở đường đột phá cho đối thủ, nên nếu muốn cả lĩnh vực cùng tiến lên thì cuối cùng vẫn phải mở công nghệ ra
- Với bản cập nhật này, tôi cho rằng Kimi K2.6 đã trở thành model AI đa phương thức mở mạnh nhất. Dĩ nhiên tôi không phải người trong cuộc. Nếu tổng hợp các benchmark AI công khai thì khi so với Opus 4.6 max effort, phần agent là 5–5, coding là Kimi 5 so với Opus 1, suy luận và tri thức là Kimi 1 so với Opus 4, còn vision là Kimi 9 so với Opus 0. Dù vậy benchmark vốn do hãng làm model lựa chọn nên cần tính đến thiên lệch, nhưng các hạng mục coding và suy luận thì nhiều cái vẫn khá tiêu chuẩn
- Cũng không hẳn chỉ có vậy. Google gần đây cũng đã công bố Gemma 4, còn Allen AI cũng đưa ra dòng open Olmo. Dù thế thì đúng là các model mở từ Trung Quốc đang trông mạnh hơn rõ rệt, đặc biệt dòng Qwen 3 có cảm giác đang vươn lên vượt kỳ vọng về tầm vóc
- Có nhiều suy đoán về lý do các viện nghiên cứu Trung Quốc phát hành model theo hướng mã nguồn mở, nhưng theo tôi nguyên nhân rất đơn giản và rõ ràng. Đó gần như là chiến lược thương mại hóa khả thi duy nhất của họ. Tôi đã viết gọn về điểm này trong bài viết của mình
Tôi luôn thấy lạ vì Kimi dường như được chú ý ít hơn mức đáng có. Nó liên tục nổi bật về độ sáng tạo và chất lượng, và đã là model tôi thích nhất trong khá lâu. Tất nhiên tôi không phải chuyên gia gì
- Nó tốt đấy nhưng tôi vẫn thấy chưa tới đẳng cấp Claude. Hơn nữa API hay gặp vấn đề về dung lượng. Dù vậy chất lượng so với giá thực sự quá vô lý, nên số dư 40 USD tôi nạp từ vài tuần hay vài tháng trước đến giờ còn chưa dùng hết một nửa
- Việc nó là một trong số rất ít model có thể vẽ đồng hồ SVG cũng khá thú vị. Có thể xem ví dụ tại trang này
- Nó càng hay hơn vì trên OpenRouter thì rất rẻ. Mong là 2.6 vẫn giữ được truyền thống đó
- Tôi đã thử nó như một lựa chọn trong Kagi Assistant, và khá thích kết quả trong môi trường nhiều tìm kiếm và tóm tắt. Đặc biệt là khi tôi yêu cầu văn xuôi tự nhiên thay vì kiểu văn LLM điển hình đầy danh sách và Markdown. Tôi khó mà so sánh một cách chắc chắn, nhưng nó có xu hướng mạnh dạn sắp xếp lại nguyên văn để làm cho mạch đầu ra tốt hơn, và đôi khi kiểu biên tập đó lại cần thiết để nối các ý tưởng liên quan vốn bị tách rời hoặc để câu trả lời thực sự đáp ứng đúng yêu cầu
- Tôi nhớ khi K2 đầu tiên ra mắt, trong một thời gian nó rõ ràng vượt các model khác về viết sáng tạo
Tôi tò mò không biết có ai ở đây đã dùng Kimi trong công việc thực tế chưa. Tôi đã thử một lần, benchmark thì nhìn rất hoành tráng nhưng ấn tượng khi dùng thật chỉ ở mức bình thường. Ngược lại Qwen 3.6 thì khá tốt, và dù không bằng Opus nhưng theo tôi cũng đủ sức so với Sonnet
- Khi dùng hết quota Codex tôi thường lấy Kimi K2.5 thay thế, và với các việc nhỏ đến trung bình thì khá ổn. Nhưng nếu dùng cho tác vụ phức tạp thì sau đó tôi lại phải mất hai ngày dọn dẹp bằng Codex, nên hy vọng 2.6 đã khá hơn
- Trước GLM-5.1, tôi thường qua lại giữa Opus 4.5 và Kimi 4.5, và phía Kimi cũng cho kết quả khá tốt
- Khả năng cao là bạn đang dùng nó rồi đấy. Nếu bạn dùng model composer-2 của Cursor thì đó là dòng Kimi. Lập kế hoạch thuộc top đầu, còn phần thực thi tôi cũng thấy chạy rất ổn trên composer-2
Nếu cảm giác benchmark và trải nghiệm thực tế khớp nhau, thì lần này có thể là một khoảnh khắc kiểu DeepSeek, nơi AI Trung Quốc gần như sánh vai với các model từ những phòng lab hàng đầu của Mỹ
- Nếu so với thế hệ model trước thì có thể nói vậy, nhưng nếu so với cái gọi là các model thần thoại cỡ 10T thì tôi cho rằng nó vẫn chưa hề tiệm cận
Dựa trên các bài test của tôi và so sánh trên aibenchy, Kimi K2.6 chỉ nhỉnh hơn Kimi K2.5 một chút. Đặc biệt ở các bài toán puzzle, bài toán chuyên biệt theo miền và các tác vụ kiểm tra độ chính xác có bẫy, nó thường xuyên không làm theo chỉ dẫn và trả lời sai. Nó có thể là một model coding rất tốt, nhưng cảm giác về trí thông minh tổng thể thì vẫn thấp hơn một chút so với SOTA hàng đầu
- Tôi đã dùng trên OpenRouter với max tokens đặt là 8192, nhưng ngay cả ở chế độ non-thinking thì mọi câu trả lời đều bị cắt cụt. Có thể là vấn đề triển khai, nhưng ngay cả trong liên kết của bạn cũng có vẻ nó tạo ra số token đầu ra rất lớn
Thỉnh thoảng tôi tự hỏi liệu trong tương lai, giống như máy tính ngày xưa từng chiếm cả một căn phòng còn bây giờ nằm trong túi quần, thì một ngày nào đó lượng tính toán tương đương cả một data center có thể nằm gọn trong một thiết bị đơn lẻ kiểu điện thoại hay không. Tốc độ phát triển công nghệ trông như đang tăng nhanh qua từng năm, nên tôi cũng nghĩ có khi thay đổi đó sẽ đến sớm hơn
- Đã có những bước đi đầu theo hướng đó rồi. Ví dụ các công ty như Taalas đang làm LLM ASIC, và HC1 được nói là đạt 17k token mỗi giây với llama 8b. Dù hiện vẫn ở mức 2.5kW nên gần với một máy chủ đơn hơn là điện thoại, nhưng việc đó mới là con chip đầu tiên nên vẫn rất có ý nghĩa. Các hướng thay thế như điện toán quang tử cũng có thể giảm điện năng đáng kể, dù hiện tại có vẻ vẫn ở giai đoạn nghiên cứu. Vì AI đang hút quá nhiều tiền và suy luận GPU hiện tại tiêu tốn điện lớn, tôi dự đoán cải tiến ở mảng này sẽ diễn ra khá nhanh
- Tôi không nghĩ nó sẽ nhanh đến vậy. Về mặt lịch sử, xu hướng chủ yếu là thu nhỏ theo hàm mũ, và nếu xu hướng đó tiếp tục thì thời gian để rút từ cỡ một căn phòng xuống cỡ túi quần hẳn cũng phải tương tự. Hơn nữa gần đây chúng ta còn đang tụt dưới xu hướng hàm mũ đó, mà bản thân tăng trưởng theo hàm mũ vốn cũng khó kéo dài quá lâu. Tôi đồng ý rằng tiến bộ công nghệ sẽ tiếp tục tăng tốc và thiết bị tính toán sẽ tiếp tục nhỏ đi, nhưng chỉ riêng điều đó không đủ để kết luận rằng bước thu nhỏ tiếp theo sẽ đến trong thời gian ngắn hơn
Tôi đã gắn nó vào app để test suốt cả sáng nay, và cảm giác cho ra kết quả tương tự Sonnet 4.6. Dù đây hoàn toàn chỉ là ấn tượng dựa trên cảm giác chứ chưa có kiểm chứng chính thức, nhưng việc xuất hiện cạnh tranh thực sự ở nhóm model frontier vẫn là tin đáng mừng
- Nhờ K2.6 và GLM 5.1 mà giờ có cảm giác dùng được trí thông minh cỡ Sonnet với mức giá cỡ Haiku. Điều này thực sự rất tuyệt. Tôi cũng mong Anthropic sớm ra Haiku mới, và nếu muốn cạnh tranh với các model rẻ hơn thì họ có lẽ cần một sản phẩm ở mức giá bằng một phần ba đến một phần năm Haiku hiện tại. Gemma-4 đang làm khá tốt ở phân khúc giá đó
Tôi tò mò không biết model này có gói thuê bao cố định cho việc coding hay không. Tức là dạng chỉ giới hạn số lần gọi API thay vì giới hạn token, vì gần đây việc thanh toán GLM trên z.ai bị lỗi làm gói đăng ký của tôi bị ngắt, mà giá thì cũng tăng quá nhiều chỉ trong vài tháng
- Kimi cũng có gói thuê bao riêng gần như tương tự các dịch vụ khác, có thể xem tại Kimi Code

ingwannu 19 giờ trước

Cá nhân mình đang dùng kimi2.5 khá ổn với gói firepass của Fireworks.ai, không giới hạn với giá 30 USD/tháng, nên mình rất kỳ vọng vào mức cải thiện hiệu năng của bản 2.6 sắp được áp dụng lên firepass.

Dùng thử qua API một lúc thì mình cảm thấy đây là một bước tiến rất lớn so với 2.5

Ra mắt Kimi K2.6 - Bước tiến của lập trình mã nguồn mở

Lập trình dài hạn

Thiết kế lấy lập trình làm trung tâm

Agent Swarm được nâng cấp

Tác nhân chủ động

Bring Your Own Agents

Bảng benchmark

Chú thích

Chi tiết kiểm thử chung

Benchmark suy luận

Tác vụ dạng tác nhân và tăng cường bằng công cụ

Tác vụ lập trình

Benchmark thị giác

Bài viết liên quan

2 bình luận

Ý kiến từ Hacker News