Kimi K2.6 đánh bại Claude, GPT-5.5 và Gemini trong một thử thách lập trình

(thinkpol.ca)

5 điểm bởi GN⁺ 2 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình open-weights Kimi K2.6 của Moonshot AI đã giành chiến thắng tại AI Coding Contest Day 12 với bài Word Gem Puzzle, đạt 22 match point và thành tích 7-1-0
MiMo V2-Pro của Xiaomi đứng thứ 2 với 20 điểm, ChatGPT GPT-5.5 đứng thứ 3 với 16 điểm, GLM 5.1 đứng thứ 4 với 15 điểm, Claude Opus 4.7 đứng thứ 5 với 12 điểm; các mô hình của Anthropic, OpenAI, Google và xAI đều xếp dưới hai mô hình dẫn đầu
Word Gem Puzzle là một trò chơi xếp chữ dạng sliding tile với kích thước từ 10×10 đến 30×30; từ ngắn hơn 7 ký tự bị trừ điểm, còn từ từ 7 ký tự trở lên được tính độ dài - 6 điểm; mỗi cặp mô hình thi 5 vòng theo từng kích thước lưới với giới hạn 10 giây
Kimi K2.6 đạt tổng 77 điểm nhờ chiến lược trượt tham lam, liên tục chọn các nước đi mở ra từ có giá trị dương; trong khi đó MiMo V2-Pro thực tế không hề trượt mà chỉ gửi hàng loạt các từ 7 ký tự trở lên có sẵn trong lưới ban đầu, nhưng vẫn xếp thứ 2 với tổng 43 điểm
Kết quả này không có nghĩa một bài puzzle đơn lẻ đủ để lật ngược các benchmark chung, nhưng việc Kimi K2.6 là một mô hình có thể tải về và đạt 54 điểm trên Artificial Analysis Intelligence Index, khá sát GPT-5.5 với 60 điểm và Claude với 57 điểm, cho thấy khoảng cách cạnh tranh đã thu hẹp

Cấu trúc giải đấu và các mô hình tham gia

GLM 5.1 của Zhipu AI đứng thứ 4, còn DeepSeek V4 chỉ về thứ 8
Mã do Nemotron Super 3 của Nvidia tạo ra có lỗi cú pháp nên không thể kết nối tới game server, vì vậy cuộc thi thực tế diễn ra với 9 mô hình
Kimi K2.6 là mô hình open-weights công khai có thể sử dụng của startup Trung Quốc Moonshot AI, thành lập năm 2023, còn MiMo V2-Pro hiện chỉ có qua API
Xiaomi đã xác nhận rằng họ sẽ sớm công bố weights của mẫu V2.5 Pro mới hơn
Kết quả lần này không đơn giản là câu chuyện “Trung Quốc thắng phương Tây”, mà được tóm lại là chiến thắng của hai mô hình cụ thể: Kimi K2.6 và MiMo V2-Pro

Luật của Word Gem Puzzle

Word Gem Puzzle diễn ra trên một lưới hình chữ nhật chứa các ô chữ cái và một ô trống, theo dạng puzzle chữ sliding tile
Kích thước lưới là một trong các mức 10×10, 15×15, 20×20, 25×25, 30×30; bot có thể đẩy một ô liền kề vào chỗ trống
Bot có thể gửi một từ tiếng Anh hợp lệ được tạo thành theo hàng ngang hoặc hàng dọc bất kỳ lúc nào
Từ theo đường chéo và từ viết ngược không được chấp nhận
Hệ thống điểm được thiết kế để thưởng cho từ dài và phạt từ ngắn
- Từ ngắn hơn 7 ký tự sẽ bị mất điểm
- Từ 5 ký tự bị trừ 1 điểm, từ 3 ký tự bị trừ 3 điểm
- Từ 7 ký tự trở lên được tính độ dài - 6 điểm, nên từ 8 ký tự được 2 điểm
Mỗi từ chỉ được gửi một lần, và nếu bot khác đã gửi trước thì sẽ không ghi điểm
Mỗi cặp mô hình đấu tổng cộng 5 vòng, mỗi vòng ứng với một kích thước lưới, và giới hạn thời gian thực cho mỗi vòng là 10 giây
Lưới được tạo bằng cách đặt các từ có trong từ điển thật theo kiểu ô chữ, sau đó điền các ô còn lại bằng chữ cái theo tần suất tile của Scrabble, rồi cuối cùng xáo trộn ô trống
Board càng lớn thì mức độ xáo trộn càng mạnh, nên ở 10×10 nhiều từ seed vẫn còn nguyên, còn ở 30×30 thì hầu như không còn

Cách hoạt động của từng mô hình và các yếu tố thành bại

Kimi K2.6
- Kimi K2.6 chủ động đẩy tile để giành chiến thắng, đạt 77 điểm tổng và là điểm số cao nhất giải
- Chiến lược của nó mang tính tham lam: chấm điểm từng nước đi khả dĩ dựa trên các từ giá trị dương mới được mở ra, rồi thực hiện nước đi tốt nhất và lặp lại
- Nếu không có nước đi nào mở ra từ dương, nó chọn hướng hợp lệ đầu tiên theo thứ tự alphabet
- Cách làm này đôi khi tạo ra vòng lặp 2-cycle kém hiệu quả, khi ô trống bị đẩy qua lại mà không tạo tiến triển ở rìa board
- Ở lưới nhỏ, nhiều từ seed còn nguyên nên sự kém hiệu quả này gây bất lợi; nhưng ở 30×30, gần như mọi từ đều đã bị phá vỡ và cần tái cấu trúc, nên số lần trượt lớn cuối cùng lại chuyển hóa thành điểm
MiMo V2-Pro
- Mã sliding của MiMo có trong kho lưu trữ, nhưng điều kiện “giá trị lớn nhất > 0” không bao giờ kích hoạt, nên trên thực tế nó chưa từng trượt lần nào
- Nó quét các từ dài từ 7 ký tự trở lên trong lưới ban đầu, rồi gửi toàn bộ các lượt submit trong một gói TCP duy nhất
- Đây là một chiến lược mong manh, phụ thuộc hoàn toàn vào việc các từ seed còn nguyên sau khi xáo trộn
- Ở những lưới còn giữ từ, nó ghi điểm rất nhanh; còn ở những lưới không còn, nó không ghi được điểm nào
- Tổng điểm cuối cùng là 43 điểm, xếp thứ 2 toàn giải
Claude Opus 4.7
- Claude cũng không trượt
- Theo log di chuyển, ở board 25×25 nó còn trụ được vì mật độ xáo trộn vẫn trong mức chịu được, nhưng sang 30×30 thì sụp đổ khi việc di chuyển tile thực sự trở nên cần thiết
- Không trượt trong một puzzle sliding rõ ràng là một giới hạn lớn
GPT-5.5
- GPT-5.5 dùng cách tiếp cận bảo thủ hơn, với khoảng 120 lần trượt mỗi vòng và có đặt giới hạn để tránh lặp vô hạn
- Nó thể hiện mạnh nhất ở các lưới 15×15 và 30×30
Grok Expert 4.2 và GLM 5.1
- Grok không trượt nhưng vẫn ghi điểm tương đối ổn trên board lớn
- GLM là mô hình trượt quyết liệt nhất toàn giải, với tổng số lần trượt vượt 800.000
- GLM bị khựng rất mạnh mỗi khi không còn nước đi dương
DeepSeek V4
- DeepSeek gửi dữ liệu sai định dạng ở mọi vòng
- Nó không tạo ra đầu ra hữu ích, nhưng cũng không làm điểm số tệ thêm vì không thật sự chơi
Muse Spark
- Muse gửi mọi từ mà nó tìm được, bất kể độ dài
- Luật tính điểm được thiết kế để phạt từ ngắn nhằm ngăn chiến lược spam các từ như “the”, “and”, “it”, và các mô hình có tính cạnh tranh đều lọc từ điển xuống chỉ còn các từ từ 7 ký tự trở lên
- Muse tìm thấy hàng trăm từ hợp lệ ngắn có thể nhìn thấy tại bất kỳ thời điểm nào trên lưới 30×30 và gửi tất cả
- Tổng điểm của nó là −15.309 điểm, thua cả 8 trận và không thắng vòng nào
- Nếu tồn tại một phiên bản Muse chỉ kết nối tới server rồi không làm gì, nó sẽ đạt 0 điểm, tức cao hơn Muse thực tế 15.309 điểm
- Khoảng cách giữa Muse và hạng 8 còn lớn hơn khoảng cách giữa hạng 8 và hạng 1

Khác biệt do lưới 30×30 tạo ra

Lưới 30×30 là nơi phân hóa các mô hình tham gia rõ nhất
Ở board nhỏ, chênh lệch giữa bộ quét tĩnh và bộ trượt chủ động không lớn, nhưng ở kích thước tối đa, các mô hình chỉ tìm từ đã tồn tại không còn đủ từ để gửi nữa
Vòng lặp tham lam của Kimi có khuyết điểm, nhưng vẫn tiếp tục tạo đầu ra ngay cả khi các bộ quét tĩnh đã hết từ để gửi
Dù MiMo và Kimi dùng chiến lược gần như đối lập, chênh lệch điểm cuối cùng giữa họ chỉ là 2 điểm
Chênh lệch giữa hạng 1 và hạng 2 không chỉ đến từ khác biệt năng lực mà còn phần nào do biến động seed

Rủi ro bộc lộ trong các tác vụ có cấu trúc

Đầu ra sai định dạng của DeepSeek là một tín hiệu về cách mô hình xử lý một đặc tả giao thức xa lạ dưới áp lực thời gian
Muse tìm và gửi được các từ hợp lệ, nhưng không áp dụng đúng ý nghĩa của “hợp lệ” khi tính cả luật chấm điểm
Thất bại của Muse cho thấy một dạng lỗi trong đó mô hình chỉ đọc một phần yêu cầu rồi thực thi triệt để theo cách hiểu chưa đầy đủ đó
Khi triển khai mô hình vào các tác vụ có cấu trúc và có phạt điểm, việc thực thi mà không phản ánh đầy đủ toàn bộ luật có thể dẫn tới tổn thất rất lớn

Giới hạn và ý nghĩa của việc diễn giải kết quả

Hệ thống điểm này thưởng cho việc gửi từ một cách quyết liệt, còn các mô hình được tinh chỉnh an toàn mạnh có thể bảo thủ hơn trước kiểu gửi ồ ạt như vậy
Trong trường hợp đó, kết quả có thể phản ánh sự lệch pha giữa thiết kế bài toán và hành vi đã được căn chỉnh của mô hình, chứ không hoàn toàn là chênh lệch năng lực thuần túy
Một thử thách đơn lẻ không thể lật ngược các benchmark phổ quát
Puzzle này kiểm tra khả năng ra quyết định thời gian thực, kết nối tới TCP server và viết mã hành vi để chơi một game mới một cách chính xác
Đây không phải bài kiểm tra suy luận ngữ cảnh dài hay năng lực tạo mã dựa trên đặc tả nói chung
Kimi K2.6 đạt 54 điểm trên Artificial Analysis Intelligence Index, GPT-5.5 đạt 60 điểm, còn Claude đạt 57 điểm
Các mức điểm này chưa phải đồng hạng hoàn toàn nhưng đã khá sát nhau, và việc Kimi K2.6 là mô hình ai cũng có thể tải về đã làm thay đổi thế cạnh tranh
Khi có thể tự do chạy cục bộ một mô hình chỉ kém frontier vài điểm, bối cảnh cạnh tranh đã khác hẳn so với một năm trước
Thử thách lần này là một điểm dữ liệu cho thấy khoảng cách đang thu hẹp đến mức những kết quả như vậy có thể xảy ra

1 bình luận

GN⁺ 2 giờ trước

Ý kiến trên Hacker News

Có lẽ trong 1 năm tới sẽ còn liên tục xuất hiện những bài như thế này. Vì không có cách nào để so sánh mô hình một cách khách quan. Ngoài những con số cấp thấp như tốc độ sinh token, số token suy luận trung bình, số tham số, số chuyên gia được kích hoạt, thì công dụng của mỗi mô hình cũng khác nhau, người dùng cũng khác nhau, và chúng cũng không mang tính quyết định
Vì vậy, các benchmark và tuyên bố kiểu “mô hình này đã đánh bại mô hình kia” sẽ tiếp tục xuất hiện, nhưng sẽ không có mô hình tốt nhất. Chỉ có mô hình phù hợp với tiêu chí của từng người, và cuối cùng rất có thể sẽ thành một thế giới mà mỗi bên ở trong phe riêng của mình, giống như Windows vs MacOS vs Linux
- Điểm cốt lõi không phải là cách so sánh mô hình mà là việc Kimi K2.6 và DeepSeek v4 Pro gần như ngang hàng với Opus, và bản thân điều đó đã là chuyện khá lớn
  Chúng là mã nguồn mở và chi phí trên mỗi token thấp hơn rất nhiều so với các mô hình của Mỹ. Hiện tôi đang dùng gói Ollama cloud $20, và có thể thực sự làm các tác vụ cho side project mà với gói Claude Pro $20 chỉ cần một hai prompt là đã chạm giới hạn. Tôi chọn Ollama đơn giản vì CLI tiện, và cũng có nhiều nhà cung cấp khác cung cấp các mô hình này, nên không bị trói vào điều kiện tệ hay quy tắc sử dụng bất lợi. Tôi xem đây là tín hiệu khá xấu cho kinh tế Mỹ
- Có cách khách quan để so sánh mô hình. Cần dùng lấy mẫu lặp lại và phân tích thống kê để xác định xem kết quả đó có tiếp tục giữ vững về sau hay chỉ là ngẫu nhiên
  Nếu tinh chỉnh từng mô hình để đạt hiệu năng tối đa phù hợp với tác vụ dự kiến, thì thứ hạng trên các benchmark khác nhau cũng trùng khớp ở mức khá cao: https://arxiv.org/abs/2507.05195
  Nhưng tác giả bài này đã không làm quy trình đó. Họ chỉ chạy mỗi mô hình một lần trên 13 bài toán cho tới thời điểm hiện tại, rồi nhấn mạnh kết quả của bài thứ 12 trong số đó. Cái này còn khó gọi là p-hacking vì thậm chí còn không hề nghĩ tới p-value. Chất lượng của mô hình ngôn ngữ lớn dao động mạnh giữa các lần chạy, nên việc chỉ chạy mỗi mô hình một lần cũng giống như tung hai đồng xu một lần, thấy một cái ra ngửa một cái ra sấp rồi kết luận đồng nào thiên lệch hơn
- Tôi đồng ý một phần, nhưng nỗ lực để làm cho các chỉ số có thể so sánh được vẫn đang diễn ra. Ví dụ: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  Nó vẫn chưa được chấp nhận rộng rãi, và xét từ góc nhìn của từng bên liên quan thì có lẽ trong một thời gian nữa cứ để như vậy lại có lợi hơn. Về thực chất thì khá giống p-hacking
- Trường hợp dùng mô hình ngôn ngữ lớn và môi trường thực thi kiểu agent của tôi khá hạn chế, nên mỗi khi có mô hình mới hay công cụ thực thi mới xuất hiện, tôi chỉ thử trên một hai use case của mình, đưa ra đánh giá chủ quan rồi bỏ qua phần lớn benchmark
  Blog và bài viết tự thân đã là một loại kinh doanh, hoặc là thứ mang traffic tới những mảng kinh doanh xoay quanh công nghệ, và khá nhiều bài đánh giá chỉ nhằm thu hút sự chú ý. Điều đó tự nó không xấu, nhưng có rất nhiều nhiễu
- Có lẽ cuối cùng nó sẽ ở vị trí giống như việc tuyển người. Ta có thể xem CV, tức là benchmark, nhưng không thể chắc chắn cho tới khi thật sự làm việc cùng trong 6 tháng
  Ngành này gần như không thể xác định một kỹ sư phần mềm có khách quan giỏi hơn kỹ sư khác hay không trên hầu hết mọi phương diện. Vậy mà tôi không hiểu vì sao lại nghĩ có thể xếp hạng mô hình một cách khách quan
Tôi thấy mừng khi mọi thứ dịch chuyển sang các bài test được chấm điểm khách quan
Chúng tôi đã làm việc này ở quy mô lớn tại https://gertlabs.com/rankings, và dù có vẻ tác giả chỉ chạy một mẫu duy nhất thì việc Kimi K2.6 có hiệu năng tốt cũng không đáng ngạc nhiên. Theo tiêu chí test của chúng tôi, đặc biệt ở mảng coding, Kimi nằm trong khoảng bất định thống kê so với MiMo V2.5 Pro, mô hình open-weight đứng đầu, và khi dùng công cụ thì tốt hơn nhiều so với DeepSeek V4 Pro. GPT 5.5 vẫn dẫn trước khá thoải mái, nhưng Kimi ngang hàng hoặc tốt hơn Opus 4.6. Tuy nhiên vấn đề của Kimi 2.6 là nó thuộc nhóm chậm trong số các mô hình chúng tôi đã test
- Nó có thể được chấm điểm khách quan, nhưng điều đó không có nghĩa là nó thể hiện năng lực coding của ai đó. Bài test này gần như đo xem mô hình nào tình cờ nghĩ ra chiến lược tốt nhất để đối đầu với các bot khác
  Nếu muốn đại diện cho coding thì phải test hơn 100 câu đố như vậy, trải khắp toàn bộ phổ câu đố, để xem ai tìm chiến lược dùng từ điển tiếng Anh tốt hơn
- Trong workflow kiểu agent, Qwen Flash và các mô hình DeepSeek Flash có vẻ khá tốt
  Điều này cũng khớp với bình luận hôm qua ở đây rằng các mô hình Flash gọi tool tốt hơn. Kết hợp GPT 5.5 để lập kế hoạch và mô hình Flash để triển khai có thể là con đường có hiệu quả chi phí tốt
- Theo trải nghiệm của tôi thì benchmark khá vô nghĩa
  Hiệu năng phụ thuộc không chỉ vào ngôn ngữ và tác vụ mà còn vào prompt đã dùng và kết quả mong đợi. Trong các bài test nội bộ, việc quyết định GPT 5.5 hay Opus 4.7 tốt hơn thật sự rất khó. Chúng có phong cách khác nhau và cuối cùng gần như là vấn đề sở thích. Có lúc tôi cho một mô hình thắng rồi nghĩ lại và đổi ý. Cuối cùng thì tôi thích Opus 4.7 hơn một chút
- Bài test và kết quả có phải là mã nguồn mở không?
- Tôi thắc mắc vì sao không thể đưa ra thước đo về kích thước ngữ cảnh đối với con người. Có vẻ khoa học hiện nay đủ để tạo ra một phép xấp xỉ đủ tốt
Theo một nghiên cứu tôi đọc vài ngày trước, nếu theo tốc độ hiện tại thì mô hình mã nguồn mở sẽ vượt các mô hình cloud trong vài năm nữa
Nhìn lại ChatGPT và Claude vài năm trước, thì ngay cả các mô hình Qwen rất nhỏ cũng gần như ngang với khả năng coding mà các mô hình cloud khi đó làm được. Nếu tính cả luật mở rộng thì từ 9B lên 18B là tăng khoảng 40%, nhưng từ 18B lên 35B chỉ khoảng 20%, nên ít nhất có vẻ các mô hình cloud sẽ phải thay đổi về giá. Adobe ngày xưa cũng từng là $600/tháng, nhưng khi quy mô phân phối tăng lên thì xuống còn $20
- Điều đó vô lý, và có mùi ngoại suy xu hướng vượt xa điều kiện còn hợp lệ
  Sự thật đơn giản là các mô hình cloud luôn có thể vượt trội một cách nghiêm ngặt so với mô hình mở. Vì các nhà cung cấp mô hình cloud cũng có thể chạy chính những mô hình mở đó. Ngoài ra họ còn giữ được lợi thế quy mô và hiệu suất khi vận hành các datacenter lớn đầy phần cứng chuyên dụng. Ít nhất thì họ cũng có thể cung cấp mô hình mở với giá trên mỗi token thấp hơn cả tiền điện của bất kỳ ai. Trên đó nữa, họ còn có đội ngũ nghiên cứu mô hình và hệ thống xung quanh, cũng như đủ khả năng giao cho các kỹ sư giỏi nhất duy trì môi trường thực thi luôn đi trước các công cụ đang thịnh hành trên GitHub
- Có thể vậy, nhưng tôi lo về phía phần cứng
  Ngay cả khi đã có mô hình đủ tốt, nếu các nhà cung cấp mô hình cloud giỏi hơn trong việc mua sắm phần cứng suy luận thì sao?
- Tôi không rõ đang nói tới sản phẩm nào của Adobe khi nói “Adobe từng là $600/tháng rồi thành $20 khi quy mô phân phối tăng lên”. Tôi chưa từng nghe Adobe có sản phẩm nào đắt như vậy
- $600/tháng à? Hay là đang nói tới giấy phép trọn đời mua một lần $600? Tôi chưa từng nghe về gói Adobe nào đắt như vậy
- Nếu có link nghiên cứu đã đọc thì mong bạn chia sẻ
Kimi thực sự rất tốt
Tôi đã thử Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen... trên dự án compiler/VM, và gói Claude Pro gần như không dùng được cho công việc coding nghiêm túc. Vì vậy tôi dùng nó ở chế độ chat trên trình duyệt để nó không đọc cả dự án một cách không cần thiết, còn Kimi thì dùng cùng pi trong gói OpenCode Go. Với dự án C+Python, Kimi liên tục vượt Sonnet, và tôi chưa từng lo nó sẽ làm những thứ ngoài yêu cầu. GLM đã từng hỏng nặng một hai lần, nhưng Kimi thì không
- Tôi tò mò vì sao lại nói “gói Claude Pro gần như không dùng được cho công việc coding nghiêm túc”. Điều đó có vẻ hoàn toàn ngược với đánh giá phổ biến là Claude Pro thường được dùng chủ yếu cho coding nghiêm túc
Đây là kết quả trên một tác vụ đơn lẻ, chỉ đo bằng hiệu năng của lời giải
Kimi K2.6 rõ ràng là mô hình có quy mô thuộc hạng frontier, nên việc nó đứng cạnh các mô hình frontier đóng không hẳn là quá bất ngờ. Việc nó mở là điều tốt, nhưng với tôi, người chỉ có một GPU tiêu dùng, thì điều đó không mang nhiều ý nghĩa như vậy
- Giá trị của mã nguồn mở không nằm ở việc tôi có thể chạy nó cục bộ, mà ở chỗ ai đó có thể chạy được nó
  Dù tôi không đủ tiền mua phần cứng để chạy mô hình mã nguồn mở cỡ lớn, sẽ có người làm được, và họ vẫn có thể có lãi dù định giá bằng một nửa chi phí của mô hình đóng. Lý do duy nhất hiện tại chưa thấy điều đó là vì các nhà cung cấp token dẫn đầu đang trợ giá cho chi phí suy luận. Ngay khi họ bắt đầu giảm chất lượng và chịu áp lực kiếm tiền, thị trường thay thế sẽ khả thi. Nếu không có mô hình mã nguồn mở thì cũng không có lựa chọn thay thế thực chất. Chỉ cần ai đó định thu 80% chi phí của các hãng lớn, sự tồn tại của một mô hình mã nguồn mở không tụt quá xa đã đủ tạo lực ép. Họ không có hào lũy nào cả
- Tất nhiên là có ý nghĩa. Nhờ thế mới có thể có gói rẻ hơn rất nhiều so với các gói coding của Anthropic và OpenAI
  Tôi đang dùng cho cá nhân các gói coding GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro và thấy hiệu quả chi phí rất tốt
- Điều này thực sự quan trọng
  Việc giảm chất lượng ban đầu có thể không dễ nhận ra, nhưng tôi đã thấy những mô hình frontier mà mình từng thích bị yếu đi rõ rệt, làm những việc ngớ ngẩn mà trước đây không làm. Càng phụ thuộc vào chúng hơn, chúng ta càng cần các mô hình open-weight đóng vai trò nền tảng ổn định
- Tương lai là ở hướng này. Các mô hình open-weight chạy trên H200 mang lại nhiều cơ hội hơn rất nhiều để xây sản phẩm và hạ tầng thực tế
  Còn với RTX nhỏ ở nhà thì lúc nào cũng có thể chưng cất lại. Nhưng các mô hình thiết kế để vừa với phần cứng tiêu dùng khó có thể được chấp nhận rộng rãi hoặc duy trì sức cạnh tranh với các phòng thí nghiệm frontier. Đây mới là dạng có thể cạnh tranh, và nó sẽ cần đồng thời kích thích một thế hệ hạ tầng cloud mở mới để chạy suy luận. Ban đầu sẽ có các sản phẩm kiểu “nhấn nút để triển khai”, “nhấn nút để fine-tune”, rồi sau đó có thể xuất hiện những sản phẩm cao cấp hơn nhiều mà chỉ open-weight không bị khóa sau API mới làm được. Giờ chỉ còn thiếu những mô hình tương đương open-weight của Nano Banana Pro / GPT Image 2, Seedance 2.0. Cuộc chiến và trọng tâm nên nhắm vào open-weight cho datacenter
Tôi ngạc nhiên khi nhìn bảng xếp hạng, nhưng đọc nội dung bài test xong thì thấy hiểu được. Nó có vẻ không liên quan nhiều tới coding
Thứ hạng hiện tại của toàn bộ bài test hợp lý hơn nhiều. Ngoại trừ việc Gemini làm tốt tới mức đó: https://aicc.rayonnant.ai
- Nếu xem chi tiết xếp hạng thì Kimi K2.6 mới chỉ tham gia 5 challenge gần đây. Trước đó Claude thống trị, còn nếu chỉ tính 5 bài gần đây thì Kimi đứng số 1
- Bảng xếp hạng huy chương chỉ có ý nghĩa khi mọi mô hình đều tham gia mọi bài test
  DNP nghĩa là không tham gia. Theo góc nhìn này thì Kimi có nhiều huy chương hơn và chất lượng huy chương cũng tốt hơn Claude
- Thật trớ trêu khi một trang xử lý nhiều mô hình như vậy lại không responsive trên di động
- Link bạn đưa thực ra gần như xác nhận ưu thế của Kimi
Chỉ là giai thoại cá nhân thôi, nhưng sau nhiều tháng chỉ dùng Claude Code, tôi đã rất bất ngờ theo hướng tích cực với năng lực của Pi + Kimi K2.6. Dùng qua OpenRouter thì nhanh hơn nhiều và chi phí cũng thấp hơn nhiều
Đáng tiếc là Kimi không hề tiệm cận GPT hay Opus. Tôi rất mong là có, nhưng thực tế không phải vậy
Tôi đang chạy một bài đánh giá trong đó mô hình phải tạo code để sinh mô hình 3D, và rõ ràng nó thiếu khả năng hiểu không gian cũng như tạo ra lỗi code nhiều hơn hẳn trước khi thành công. Có thể ở vài trường hợp cụ thể nó tốt hơn, và tôi nghĩ bài blog này là một ví dụ như thế
- Hơi lạc đề một chút, nhưng trong vài tuần qua tôi đã dùng DeepSeek V4 Pro và thấy nhìn chung nó ngang hàng với Opus. Ngoại trừ khi làm việc với Blender
  Đây không phải vấn đề thị giác. DeepSeek không phải multimodal, nhưng tôi không rõ vì sao Opus lại hiểu Blender API tốt hơn rất nhiều. Có vẻ lúc nào cũng có những vùng nhỏ mà mô hình frontier đóng làm tốt hơn một chút
- Nói công bằng thì không phải ai cũng cần mô hình 3D
Cái này có vẻ không phải Kimi coding giỏi hơn Claude, mà gần hơn với việc Kimi tìm được chiến lược đúng cho một trò chơi cụ thể
Dù vậy nó vẫn thú vị. Có lẽ điều thật sự cốt lõi là mô hình open-weight đã tiến gần tới mức mà khoảng cách đó đủ nhỏ để trở nên có ý nghĩa
Tôi không quá hiểu lĩnh vực AI, nhưng việc cố huấn luyện một mô hình để làm mọi thứ cho mọi người có vẻ thật sự là một ý tưởng ngớ ngẩn
Nó đòi hỏi nguồn lực khổng lồ và gây ra tình trạng thiếu hụt nghiêm trọng cũng như méo mó thị trường với mọi tài nguyên mà các công ty AI sử dụng, như RAM, SSD, datacenter... Ngoài đời, khi thuê thợ ống nước, người ta đâu kỳ vọng họ còn làm cả cảnh quan, sửa xe và vá quần áo. Ví dụ, có thể tải về một ứng dụng chuyên cho coding shell, Python, C, hoặc thậm chí tốt hơn nữa là 3 ứng dụng như vậy giao tiếp với nhau; điều đó có vẻ hiệu quả tài nguyên hơn nhiều. Thậm chí có thể chạy trên máy phổ thông 16GB RAM. Không nhất thiết phải có một mô hình khổng lồ có thể coding cả Fortran, COBOL lẫn Lisp. Loài người đã làm khá tốt nhờ chuyên môn hóa, và tôi muốn thấy các mô hình AI nhỏ hơn, tập trung hơn được khám phá nhiều hơn thay vì con đường hiện tại là “một mô hình thống trị tất cả và chỉ chạy được trong các datacenter cỡ quốc gia”
- Về cơ bản là đúng, nhưng cũng có trường hợp không như vậy
  Từ sau GPT-3, mọi người vẫn nói rằng không mô hình nào có thể đa dụng đến thế nên fine-tuning là tốt, nhưng qua từng thế hệ thì điều đó ngày càng bớt đúng hơn

Kimi K2.6 đánh bại Claude, GPT-5.5 và Gemini trong một thử thách lập trình

Cấu trúc giải đấu và các mô hình tham gia

Luật của Word Gem Puzzle

Cách hoạt động của từng mô hình và các yếu tố thành bại

Kimi K2.6

MiMo V2-Pro

Claude Opus 4.7

GPT-5.5

Grok Expert 4.2 và GLM 5.1

DeepSeek V4

Muse Spark

Khác biệt do lưới 30×30 tạo ra

Rủi ro bộc lộ trong các tác vụ có cấu trúc

Giới hạn và ý nghĩa của việc diễn giải kết quả

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News