Kimi K2.7-Code: mô hình lập trình mã nguồn mở cải thiện hiệu quả token

(huggingface.co)

3 điểm bởi GN⁺ 2026-06-13 | 1 bình luận | Chia sẻ qua WhatsApp

Đây là mô hình lập trình dạng agent xử lý các tác vụ lập trình dài hạn và quy trình kỹ thuật phần mềm phức tạp, được cải thiện từ nền tảng Kimi K2.6 để tăng khả năng hoàn thành công việc end-to-end và hiệu quả sử dụng token
So với Kimi K2.6, lượng token suy luận đã giảm khoảng 30%, trong khi Kimi Code Bench v2 tăng từ 50.9 lên 62.0 và MCP Mark Verified tăng từ 72.8 lên 81.1
Kiến trúc mô hình dựa trên MoE, với tổng cộng 1T tham số, 32B tham số hoạt động, độ dài ngữ cảnh 256K và bộ mã hóa thị giác MoonViT
Việc triển khai hỗ trợ API chính thức cùng vLLM, SGLang và KTransformers; do có cùng kiến trúc với Kimi-K2.5/Kimi-K2.6 nên có thể tái sử dụng cách triển khai hiện có
Khi sử dụng, chế độ Thinking và preserve_thinking được bắt buộc; hỗ trợ đầu vào hình ảnh và hiện chỉ hỗ trợ thử nghiệm đầu vào video trên API chính thức

Tổng quan mô hình

Kimi K2.7-Code là mô hình agent tập trung vào lập trình dựa trên Kimi K2.6, đã được cải thiện cho các tác vụ lập trình dài hạn thực tế
Tăng cường khả năng hoàn thành công việc end-to-end trong toàn bộ các quy trình kỹ thuật phần mềm phức tạp
So với Kimi K2.6, mô hình giảm khoảng 30% lượng token suy luận để nâng cao hiệu quả token
Được cung cấp cùng các thẻ image-text input, Transformers, Safetensors, conversational, custom_code

Tóm tắt mô hình

Kiến trúc là Mixture-of-Experts(MoE), với tổng số tham số là 1T và số tham số hoạt động là 32B
Số lớp là 61, bao gồm cả Dense layer, trong đó có 1 Dense layer
Attention Hidden Dimension là 7168, MoE Hidden Dimension là 2048 cho mỗi expert
Có 64 Attention Head, 384 expert, 8 expert được chọn mỗi token và 1 Shared Expert
Kích thước từ vựng là 160K và độ dài ngữ cảnh là 256K
Cơ chế Attention là MLA, hàm kích hoạt là SwiGLU
Bộ mã hóa thị giác là MoonViT, với 400M tham số cho vision encoder

Kết quả đánh giá

Benchmark lập trình
- Trong Kimi Code Bench v2, Kimi K2.6 đạt 50.9, Kimi K2.7 Code đạt 62.0, GPT-5.5 đạt 69.0 và Claude Opus 4.8 đạt 67.4
- Trong Program Bench, Kimi K2.6 đạt 48.3, Kimi K2.7 Code đạt 53.6, GPT-5.5 đạt 69.1 và Claude Opus 4.8 đạt 63.8
- Trong MLS Bench Lite, Kimi K2.6 đạt 26.7, Kimi K2.7 Code đạt 35.1, GPT-5.5 đạt 35.5 và Claude Opus 4.8 đạt 42.8
Benchmark agent
- Trong Kimi Claw 24/7 Bench, Kimi K2.6 đạt 42.9, Kimi K2.7 Code đạt 46.9, GPT-5.5 đạt 52.8 và Claude Opus 4.8 đạt 50.4
- Trong MCP Atlas, Kimi K2.6 đạt 69.4, Kimi K2.7 Code đạt 76.0, GPT-5.5 đạt 79.4 và Claude Opus 4.8 đạt 81.3
- Trong MCP Mark Verified, Kimi K2.6 đạt 72.8, Kimi K2.7 Code đạt 81.1, GPT-5.5 đạt 92.9 và Claude Opus 4.8 đạt 76.4
Điều kiện đánh giá
- Nếu không có ghi chú riêng, Kimi K2.7 Code và K2.6 được kiểm thử trong Kimi Code CLI với chế độ Thinking bật, temperature 1.0, top-p 0.95 và độ dài ngữ cảnh 262,144 token
- GPT-5.5 được chạy ở chế độ xhigh của Codex, còn Opus 4.8 được chạy ở chế độ xhigh của Claude Code
- Ngoài các khác biệt đó, mọi benchmark đều được đánh giá trong cùng điều kiện
Cấu hình benchmark
- Kimi Code Bench V2 là benchmark nội bộ đánh giá agent lập trình trên các tác vụ thực tế, bao phủ hơn 10 ngôn ngữ lập trình chính và toàn bộ stack công nghệ production
- Kimi Code Bench V2 bao gồm các use case kỹ thuật nội bộ, sự cố production và các tác vụ từ dự án mã nguồn mở thực tế
- Program Bench yêu cầu tái hiện hành vi chương trình chỉ từ binary đã biên dịch và tài liệu, sử dụng 200 tác vụ và hơn 248.000 bài kiểm tra hành vi sinh bằng fuzz
- MLS-Bench đánh giá liệu hệ thống AI có thể tạo ra các phương pháp ML có khả năng khái quát hóa và mở rộng hay không; MLS-Bench-Lite là tập con chính thức gồm 30 tác vụ
- Kimi Claw 24/7 Bench là benchmark nội bộ đánh giá hiệu năng agent dài hạn trong hợp tác liên tục nhiều ngày, bao phủ 17 kịch bản chuyên môn và 610 điểm đánh giá
- MCP-Atlas đánh giá hiệu năng LLM trong các tác vụ sử dụng công cụ thực tế thông qua MCP có khả năng mở rộng
- MCPMark-Verified là phiên bản được con người xác minh của MCPMark, đánh giá việc sử dụng công cụ MCP trong 5 môi trường máy chủ thực tế gồm Notion, GitHub, Filesystem, Postgres và Playwright

Lượng tử hóa Native INT4

Kimi-K2.7-Code áp dụng phương thức native int4 quantization giống như Kimi-K2-Thinking

Triển khai

API của Kimi-K2.7-Code có thể được truy cập tại https://platform.moonshot.ai
API chính thức cung cấp API tương thích OpenAI/Anthropic
Các engine suy luận được khuyến nghị là vLLM, SGLang và KTransformers
Kimi-K2.7-Code có cùng kiến trúc với Kimi-K2.5/Kimi-K2.6 nên có thể tái sử dụng trực tiếp cách triển khai
Yêu cầu phiên bản transformers là >=4.57.1, <5.0.0
Có thể xem ví dụ triển khai trong Model Deployment Guide

Cách sử dụng

Điều kiện cơ bản khi gọi API
- Demo sử dụng dựa trên cách gọi API chính thức
- Kimi-K2.7-Code bắt buộc bật Thinking và preserve_thinking=True
- Trên API bên thứ ba được triển khai bằng vLLM hoặc SGLang, trò chuyện với nội dung video hiện là tính năng thử nghiệm chỉ được hỗ trợ trên API chính thức
- temperature được khuyến nghị cho chế độ Thinking là 1.0 và top_p được khuyến nghị là 0.95
- Không hỗ trợ chế độ Instant
Chat Completion
- Ví dụ Chat Completion gọi API K2.7-Code ở chế độ Thinking
- Mã ví dụ dùng client openai để gọi client.chat.completions.create và đặt max_tokens=4096
- Trong phản hồi, in ra response.choices[0].message.reasoning và response.choices[0].message.content
Đầu vào nội dung trực quan
- K2.7-Code hỗ trợ đầu vào hình ảnh và video
- Ví dụ đầu vào hình ảnh mã hóa ảnh bằng base64 rồi truyền vào image_url, tạo phản hồi với max_tokens=8192
- Ví dụ đầu vào video mã hóa tệp mp4 bằng base64 rồi truyền vào video_url
- Trò chuyện video hiện là tính năng thử nghiệm chỉ được hỗ trợ trên API chính thức
Preserve Thinking
- Kimi K2.7 Code bắt buộc chế độ preserve_thinking, giữ lại toàn bộ nội dung reasoning trong tương tác nhiều lượt
- preserve_thinking giúp nâng cao hiệu năng trong các kịch bản agent lập trình
- Tính năng này được bật mặc định và không thể tắt
- Một số API có thể không hỗ trợ reasoning_content, khi đó có thể thử reasoning
Interleaved Thinking và gọi công cụ nhiều bước
- K2.7-Code chia sẻ thiết kế Interleaved Thinking và Multi-Step Tool Call giống K2 Thinking
- Ví dụ sử dụng tham khảo K2 Thinking documentation
Framework agent lập trình
- Kimi K2.7-Code hoạt động tốt nhất khi dùng cùng Kimi Code CLI như một framework agent
- Kimi Code CLI được cung cấp tại https://www.kimi.com/code

Ví dụ chạy cục bộ

Transformers
- Trong Transformers, có thể tạo pipeline cấp cao bằng pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)
- Có thể tải trực tiếp mô hình bằng AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
vLLM
- Cài đặt vLLM bằng pip install vllm và khởi động máy chủ bằng vllm serve "moonshotai/Kimi-K2.7-Code"
- Ví dụ gọi sử dụng endpoint API tương thích OpenAI là http://localhost:8000/v1/chat/completions
- Trong Docker Model Runner, chạy bằng docker model run hf.co/moonshotai/Kimi-K2.7-Code
SGLang
- Cài đặt SGLang bằng pip install sglang và khởi động máy chủ bằng python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"
- Ví dụ gọi sử dụng endpoint API tương thích OpenAI là http://localhost:30000/v1/chat/completions
- Ví dụ chạy Docker thiết lập GPU, bộ nhớ chia sẻ, bộ nhớ đệm Hugging Face và biến môi trường HF_TOKEN

Giấy phép

Kho mã nguồn và trọng số mô hình được phân phối theo Modified MIT License

1 bình luận

GN⁺ 2026-06-13

Ý kiến trên Hacker News

Đọc điều khoản giấy phép đã sửa thấy khá buồn cười. Về cơ bản nó là giấy phép MIT kèm thêm một điều khoản quảng cáo kiểu BSD cũ, và gần như là yêu cầu họ được “quảng bá” nếu sản phẩm dùng nó, bất kể MAU hay doanh thu hàng tháng
Thành thật mà nói thì đây có vẻ là một yêu cầu hợp lý
- Trông giống một điều khoản nhắm vào Cursor. Ý là đừng làm họ phải công khai theo cách gây bẽ mặt
- Điều khoản “quảng cáo” ở đây chỉ ở mức nêu rõ đâu đó trong sản phẩm rằng bạn đã sử dụng nó. Ví dụ như đưa vào phần credit trong mục “About”
- Có cảm giác được thêm vào khá vội. Tôi cứ nghĩ họ sẽ gọt lại câu chữ pháp lý hơn một chút về việc những gì được tính là “giao diện người dùng”
Tôi đã đưa cho Kimi K2.7-code chỉ dẫn khá đơn giản để rebase bản vá Fil-C OpenSSL từ 3.3.1 lên 3.5.7, và có vẻ nó đã làm tốt
Bản vá nặng 177KB nên không phải thay đổi nhỏ, lúc đầu cũng không áp dụng sạch được nên agent phải làm khá nhiều việc thực chất
Tôi chỉ đưa bản vá cho 3.3.1, lệnh build, đường dẫn 3.5.7, và link tài liệu thay đổi (https://fil-c.org/constant_time_crypto)
Tuy nhiên tôi dùng agent code nội bộ là T800, chưa được công khai, và trước đó đã được kiểm thử cũng như tinh chỉnh đủ nhiều cho K2.5
Chi phí API hình như vào khoảng $5~$10. Đính chính: là OpenSSL chứ không phải OpenSSH
Cá nhân tôi thấy khi dùng mã nguồn mở hoặc router, qua một ngưỡng nhất định thì khác biệt giữa các model không còn quá rõ. Ngoại lệ là những model đắt mà lưng chừng như Gemini
Theo nghĩa đó thì các model từ Trung Quốc khá ổn. Tôi thường để chúng viết code ở mức hàm hoặc phương thức trước, rồi mới thiết kế và lắp ghép
Dòng GPT vẫn cẩn thận hơn và tốt hơn, nhưng tôi không chắc chênh lệch có lớn đến vậy không. Có lẽ còn tùy workflow, nhưng nếu kiểm soát đủ chặt thì tôi nghi ngờ là liệu khác biệt có thực sự lớn hay không
- Tôi phần nào đã bỏ cuộc với các router suy luận “miễn phí”. Đúng như dự đoán, vì cố tiết kiệm suy luận tối đa nên nhiều lúc chất lượng suy nghĩ bị giảm
  Việc biến MacBook M1 Pro thành miếng sưởi khi chạy Qwen 3.6 35B A3B MTP thì ở mức nào đó lại khá thành công
  Khi cố dùng các model Gemini theo kiểu “local”, tôi gặp vấn đề tương tự: lượng nỗ lực bị cắt quá ngắn nên hay sai và số lượt trao đổi tăng lên
  Ngược lại, khi nghe nói Fable rất dai dẳng và “chủ động”, tôi thấy nếu có branding mạnh và cách thu phí hiệu quả thì hoàn toàn có thể đi theo hướng ngược lại
- Theo kinh nghiệm của tôi, ở mức triển khai từng hàm riêng lẻ thì gần như không có khác biệt giữa model tuyến đầu và các model 30B đời mới
  Nếu đã có một thiết kế nhất quán, mà đó mới là phần khó, thì đưa vào model khá nhỏ vẫn cho ra chất lượng gần như tương đương
  Nó không hoàn thành trong một phát, nhưng nhanh hơn và rẻ hơn nên rốt cuộc lại có lợi. Hơn nữa còn có thể chạy local
- Khác biệt về kết quả không lớn, nhưng đúng là phải kiểm soát chặt hơn. Ví dụ Kimi K2.5/K2.6 đôi khi thay vì sửa lỗi do chính nó vừa tạo ra thì lại nhầm các bài test đang fail là “lỗi có sẵn” rồi comment chúng đi
  Vì thế cần phải thiết lập rõ ràng để các test bị comment sẽ làm hỏng bản build. Cá nhân tôi chưa gặp vấn đề đó với model của Anthropic hay OpenAI
- Tôi mong mọi người thôi dùng cách gọi “model Trung Quốc”. Nó mang sắc thái tiêu cực
  Giống như ngày xưa gọi ô tô là “xe Nhật”, giờ gần như không còn nhiều ý nghĩa nữa, và người ta просто gọi là Toyota, Honda, Lexus
nếu có ai đã dùng thử opencode + Kimi K2.6/2.7 và so sánh với Claude Code thì mình thật sự rất muốn biết. Muốn biết cái nào tốt hơn, cái nào kém hơn, và so sánh chi phí ra sao
Hiện tại mình đang trả $100 cho gói 5x Max, nhưng Fable tiêu hao hạn mức sử dụng khá nhanh, và cũng khó nói là khác biệt một trời một vực so với Opus
Vì chủ yếu dùng cho dự án phụ nên hóa đơn $100 cũng đã thấy khá lớn rồi, mình không muốn trả nhiều hơn nữa
- Mình chủ yếu dùng Claude Code với Opus, rồi chuyển sang opencode + Kimi 2.6 cho dự án cá nhân và dùng vài tháng
  Claude Code đúng là tốt hơn. Nhưng điểm quan trọng là opencode + Kimi 2.6 vẫn dùng ổn
  Nếu bạn biết chính xác mình muốn gì và chỉ giao việc viết mã đơn giản, thì đa số các model phổ biến như DeepSeek, Kimi cũng đều khá ổn và không khác Anthropic quá nhiều
  Ngược lại, Opus hiểu ý định tốt hơn DeepSeek rất nhiều. Khi dùng DeepSeek thì phải viết prompt chính xác hơn nhiều, còn viết mơ hồ thì nó thường đi chệch hướng
  Kimi nằm ở giữa. Nó phần nào khôi phục được luồng làm việc kiểu “prompt lỏng”, và kế hoạch của nó đáng tin hơn DeepSeek
  Có thể có quy trình làm việc tương tự Claude Code, nhưng nhìn chung mọi thứ đều kém hơn một chút. Độ dài ngữ cảnh, số lỗi, khả năng ra quyết định, gợi ý và debug đều yếu hơn đôi chút
  Về mức sử dụng, gói Claude $100 thực ra có hiệu quả chi phí tốt. Tính theo đơn giá token thì Kimi rẻ hơn nhiều, nhưng có vẻ gói đăng ký Claude được trợ giá khá mạnh nên với $100 bạn nhận được nhiều token hơn rất nhiều so với số mua được qua API
  Cuối cùng, với kiểu sử dụng tương tự thì chi phí của opencode + Kimi và Claude Code có thể gần ngang nhau
  DeepSeek rẻ hơn nữa và token cache thì rẻ đến mức khó tin, nhưng nếu chuyển từ Claude Code sang thì có thể phải điều chỉnh cách làm việc tùy theo thói quen
  Nếu là dự án phụ thì mình thấy cấu hình gói $10 Opencode Go cộng thêm $10 credit DeepSeek v4 ở nơi như OpenRouter là khá thực dụng
- Trong công việc thì mình dùng Claude, còn dự án phụ thì dùng Kimi. Trong tổ chức có bật LiteLLM và Kimi 2.5 nhưng gần như không chạy tốt, nên Claude và GPT vẫn là công cụ chính
  Kimi giống như một lập trình viên đang phỏng vấn nên thú vị hơn. Xem quá trình nó suy luận về vấn đề khá giống cách mình giải thích trong một buổi whiteboard session. Nó nói “wait” quá thường xuyên nên khá buồn cười
  Claude giống một nhân viên đã được tuyển hoặc cả một nhóm nhân viên hơn. Nó không giải thích dài dòng ngay từ đầu, chỉ hỏi khi cần rồi đưa ra báo cáo hoặc kế hoạch tổng thể
  Mình thấy OpenCode là một harness tốt hơn. Về chi phí thì mình chưa từng chạy chính xác cùng một prompt ở cả hai bên nên không thể so sánh trực tiếp
  Gần đây mình đã để Kimi tạo một wrapper libpq cho ngôn ngữ lập trình ZenC(https://github.com/nobleach/zenc-postgres), mất khoảng một giờ và chi phí khoảng $4
- Mình rất hài lòng với ohmypi, nhưng dùng OpenCode hay tiếp tục dùng Claude Code cũng đều được
  DeepSeek-V4-Pro đủ tốt, còn DS4-Flash thì có thể dùng cho những việc hoặc hoạt động nhỏ mà bạn thường giao cho Haiku hay Sonnet. Chỉ cần nạp trước $10 để đăng ký
  OpenCode Go có thể đăng ký với giá $5/tháng để dùng Qwen-3.7-Max cho thiết kế, lập kế hoạch, kiến trúc và giải quyết vấn đề khó. Nó cho cảm giác gần Opus 3.6 hoặc 3.7 hơn DeepSeek, và là thứ giống nhất mình từng tìm được
  OpenAI Codex với gói $20/tháng cho phép dùng GPT-5.5 qua API cho thiết kế, lập kế hoạch, kiến trúc, giải quyết vấn đề và viết commit. Với vấn đề thật sự khó thì có thể trả $100 rồi copy vào chat GPT-5.5-Pro
  Xiaomi MiMo-2.5-Pro có thể nhận 72 cent credit miễn phí nếu xin bạn bè mã giới thiệu $2. Giá của nó ngang DeepSeek và năng lực khá tốt, đâu đó nằm giữa Sonnet và Opus. Cũng đáng thử đăng ký UltraSpeed beta
  Trong OpenCode hoặc ohmypi, bạn chỉ cần đổi qua lại các model này ngay tại chỗ để tìm ra cái hợp nhất với mình. Mình dùng CodexBar để xem mức sử dụng gần như theo thời gian thực
  Với người dùng nhẹ hoặc người mới học lập trình, gói $20 của Cursor là điểm bắt đầu tốt với Composer-2.5 và Composer-2.5-Fast. Nó cũng có hạn ngạch API, nên ngoài chính Cursor ra bạn còn có thể truy cập Opus-4.x hoặc GPT-5.5-Pro từ OpenCode hay ohmypi
  Nếu dùng Grok hoặc Twitter, thì SuperGrok $30/tháng có model vision tốt và mình đã dùng nó cho kiểm thử tự động frontend. Tuy vậy hiện tại mình đang chuyển sang Qwen-3-VL chạy cục bộ trên Mac thường. Nếu ít rành kỹ thuật hơn thì unreach giúp việc host model cục bộ trên Mac dễ hơn
  Nếu có GPU mạnh như RTX 5090 thì Qwen-3.6 cũng đáng thử chạy cục bộ. Dùng ollama hoặc llama-swap thì tương đối dễ
  Mình vẫn chưa thử Kimi mới, nhưng đang vận hành một đội gồm 3 lập trình viên chuyên nghiệp, 1 nhà thiết kế đồ họa dùng nhiều Midjourney và Grok Imagine, và 1 người không chuyên kỹ thuật dùng ohmypi để thu thập yêu cầu và theo dõi triển khai, trong khi vẫn giữ chi phí dưới $200 mỗi nhân viên mỗi tháng
  Chỉ cần tối ưu thêm chút nữa thì có thể tiến gần mức $75 mỗi nhân viên mỗi tháng
- Mình đang gắn litellm proxy đã vá cho Claude Code, openrouter, cùng với Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro để dùng chung
  Tính năng duy nhất không hoạt động là webfetch và tìm kiếm web, nhưng mình đã thay thế bằng cách cho agent đi đường vòng qua ddg MCP và pre-hook lấy/tìm kiếm web
  Bộ nhớ, caching và những phần còn lại đều hoạt động tốt
  Qwen trong việc lập kế hoạch thì gần Opus, nhưng Fable rõ ràng vẫn vượt trội hơn
  Về coding, nếu Opus viết sẵn kế hoạch thì kết quả của Kimi và DeepSeek gần như không phân biệt được với Opus
  Khác biệt lớn nhất là nhịp xuất đầu ra. Ví dụ Kimi sẽ suy nghĩ lâu rồi xuất ra rất nhiều văn bản thật nhanh
  Hiện tại mình đang thử Fable cho nghiên cứu và lập kế hoạch, còn DeepSeek v4 flash cho coding. Kết quả có vẻ tương tự Opus + DeepSeek v4 pro nhưng tổng chi phí có lẽ thấp hơn
- Mình chỉ có thể nói về GLM 5.1, và theo tiêu chuẩn của mình thì nó khá gần mức Sonnet 4

Tốt, xử lý khá ổn hầu hết các tác vụ được ném vào, nhưng thất bại ở các tác vụ phức tạp về mặt nhận thức. Thường xuyên bị kẹt. Dù vậy chỉ khoảng $6/tháng.

Có một ngưỡng mà mô hình “tốt nhất” không còn quá quan trọng nữa, và tôi nghĩ chúng ta không còn cách nó xa. Fable hiện giờ thực sự rất tốt, nhưng nếu khoảng 1 năm nữa Kimi bắt kịp thì dù Fable6 có tốt hơn nhiều, nếu giá chỉ bằng 1/10 thì có lẽ tôi sẽ dùng Kimi
Trước đây khi nhìn Opus 4.5, tôi từng nghĩ “nếu tốt đến mức này thì trong 6~12 tháng nữa các mô hình Trung Quốc sẽ đạt mức tương tự và rẻ hơn, khi đó mình sẽ dùng chúng”, nhưng tôi đã sai. Ngay cả bây giờ tôi vẫn đang trả premium cho Opus 4.7/8 và Fable
Dù vậy, đến một lúc nào đó chúng sẽ đạt đến mức chỉ cần làm được việc mình muốn, và từ thời điểm đó sẽ bắt đầu cuộc cạnh tranh giảm giá
Giờ đây các công ty Trung Quốc đã có thể tiếp cận những token Fable rất tốt, nên tôi hy vọng cuộc cạnh tranh đó sẽ diễn ra nhanh hơn
- Tùy bạn là ai và bạn dùng mô hình thế nào, có những trường hợp thực ra đã chạm đến điểm đó rồi
- Tôi nghĩ mặt trận cạnh tranh tiếp theo là tốc độ. Thay vì phải qua lại giữa nhiều agent, mỗi agent làm một việc riêng và liên tục chuyển ngữ cảnh, sẽ tốt hơn nếu một agent duy nhất có thể đẩy bất kỳ prompt nào trong vài giây để duy trì mạch làm việc của một tác vụ
- Không phải chỉ giá trên mỗi token mới quan trọng. Nếu phải hỏi lại AI thì nó có thể còn đắt hơn một mô hình trả lời đúng ngay từ đầu
  Vì vậy dù đơn giá token cao hơn, mô hình tốt hơn trên thực tế vẫn có thể rẻ hơn
Nếu Opus đắt gấp 5 lần Kimi K2.6 hay các mô hình Trung Quốc khác mà chỉ tốt hơn một chút, tôi từng tự hỏi các công ty như Anthropic làm sao duy trì được năng lực cạnh tranh
Giả thuyết của tôi là các công ty Mỹ không thể gửi dữ liệu sang phía Trung Quốc, và điều đó thì dễ hiểu. Nhưng liệu đó có thật sự là một “hào lũy” không?
- Hào lũy hiện tại là hiệu năng mô hình và lượng token cùng thời gian phát sinh thêm vì điều đó
  Tôi nói điều này với tư cách người dùng Kimi khá thường xuyên và nhìn chung là thích nó
  Trên các benchmark chưa bị game hóa như DeepSWE, Kimi K2.6 thua khá xa Claude Sonnet 4.6($3/$15), và cũng hơi thua GPT 5.4 Mini($0.75/$4.50)
  Rõ ràng mô hình Kimi rất tốt trong nhiều tác vụ lập trình và là mô hình open-weight có chất lượng tốt nhất
  Nhưng để có được kết quả tổng thể tương tự Sonnet/Opus thì trung bình phải dùng nhiều token hơn đáng kể và quản lý mô hình nhiều hơn
  Cần nhìn vào tổng chi phí của cả quy trình, chứ không chỉ giá trên mỗi token
- Tôi nghĩ nhiều người không xem đó là “chỉ tốt hơn một chút”. Chính khoảng cách chất lượng được cảm nhận đó cho phép phân biệt giá
  Ngoài ra, trong những trường hợp chi tiêu lớn thì cũng có đủ các bên hợp lý chạy đánh giá, nên khả năng cao “tốt hơn một chút” không chỉ là cảm giác thuần túy
  Tuy vậy, bộ đánh giá mà tôi trực tiếp xem được cũng chỉ là một phần. Cũng có thể mọi người đều phi lý và Anthropic đang tận dụng điều đó
- Tôi nghĩ phần lớn những người đã dùng cả hai sẽ nói mô hình Anthropic không chỉ hơn một chút so với Kimi
  Kimi và các mô hình mã nguồn mở khác có thể đạt điểm tốt ở những bài như SWE-bench, nhưng khi dùng thực tế thì cảm nhận được khoảng cách
- Giá token API chỉ là một yếu tố, còn gói thuê bao Claude thì đáng tiền
  Thật lạ là ai cũng dựa vào giá API để nói thuê bao Claude đang được trợ giá, nhưng thực tế không ai biết chi phí suy luận thật của Claude, và các nhà cung cấp Trung Quốc cũng có thể cung cấp suy luận giá rẻ. Vậy thì tại sao lại cho rằng Claude không thể làm được điều đó?
  Cũng có thể khách hàng doanh nghiệp có các thỏa thuận giá API khác không được công khai. Những gì chúng ta nhìn thấy có thể chỉ là mức giá niêm yết cao
- Chỉ trong các lĩnh vực có thể so sánh trực tiếp thì mới gần với mức “tốt hơn một chút”; còn ở nhiều lĩnh vực khác, các mô hình A\ tốt hơn rất nhiều. Ví dụ như các loại tác vụ mà Kimi v.v. chưa chưng cất được
  Trong các tác vụ đó, chênh lệch lớn như vực thẳm
Sau khi thử nghiệm nghiêm túc thì đây có vẻ là một cải tiến khá ổn. Chỉ riêng việc dùng ít token hơn cho cùng một tác vụ cũng đã là lý do đủ mạnh để dùng nó thay cho K2.6 khi cần mô hình mở
Nếu một mô hình mới không thực sự vượt DeepSeek v4 khoảng 20~30% mà lại có giá mỗi token cao hơn DeepSeek, thì tôi nghĩ gần như tự động nó sẽ bị đẩy thành mô hình ít người dùng. Có lẽ vẫn dùng được cho mục đích lập kế hoạch
- DeepSeek v4 Pro thực ra không phải là mô hình tốt đến vậy nếu so với GLM 5.1 hay Kimi K2.6. Nó chỉ là một coder/bộ suy luận ổn so với mức giá
- Tôi tự hỏi DeepSeek đang chấp nhận gánh chi phí, hay là mọi người thực sự có thể tự host mô hình mở với chi phí tương đương
Tôi vẫn chưa thật sự quen với mô hình open-weight/open-source. Nếu có ai dùng toàn thời gian, tôi muốn nghe về cách thiết lập và hiệu năng. Tôi đang cân nhắc chuyển cả tổ chức khỏi các sản phẩm của Anthropic
- Nói về trải nghiệm cá nhân, tôi dùng forgecode và openrouter cho công việc riêng. Trước hết, tôi xem forgecode là một harness tốt hơn Claude Code rất nhiều
  Về chất lượng mô hình thì không khác biệt lớn, nhưng chênh lệch chi phí thì vô lý luôn. Ít nhất là theo cách tôi dùng agent
  Ví dụ hôm qua, tôi đang phát triển một DSL nhỏ để truy vấn tài liệu kỹ thuật phức tạp và muốn thử Fable để thêm một toán tử nhỏ
  Fable đốt $13 và có đưa ra lời giải, nhưng xét khách quan thì không tốt hơn việc DeepSeek v4 làm cùng tác vụ với $1.7
  Tuy nhiên, tôi giao cho agent các tác vụ nhỏ, tách rời. Với DSL này, tôi tự thiết kế các toán tử rồi để agent triển khai từng cái một
  Nếu tôi bắt đầu từ một tài liệu phức tạp và bảo nó thiết kế toàn bộ thì có lẽ Fable đã tỏa sáng
  Nhưng mỗi lần tôi giao cho agent công việc có phạm vi rộng hơn, nó lại đốt hàng triệu token và sinh ra mã đáng ngờ, cuối cùng tôi vẫn phải mất thời gian tự tìm hiểu
- Tôi đã làm https://github.com/gitsense/gsc-cli và tôi nghĩ khoảng 80% mã là do glm-4.7 tạo ra
  Ví dụ, nếu xem một file như https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... thì tôi có ghi rõ mô hình đã dùng
  4.7 không thật sự tốt với mã go, nên đó là lúc attribution bắt đầu xuất hiện Gemini 3 Flash
  4.7 là mô hình do Cerebras cung cấp, còn với tôi thì tốc độ lặp lại quan trọng hơn nhiều
  Sau khi dùng thử MiMo v2.5.0-Pro, tôi tin chắc nó có thể làm được 100% những gì Gemini 3 Flash đã làm
  Có vài lần bị mắc kẹt thì tôi phải nhờ Sonnet giải thích, nhưng bí mật bẩn thỉu mà Anthropic và OpenAI sẽ không nói là nếu bạn biết lập trình thì các mô hình hiện nay thành thật mà nói đã đủ tốt rồi
  Từ trải nghiệm với MiMo và các đánh giá của người khác về GLM 5.1, tôi nghĩ giờ đây cuộc cạnh tranh đã chuyển sang phần cứng
  Với những người biết lập trình và muốn dùng AI để khuếch đại những gì mình đã biết, các mô hình Trung Quốc là bản thay thế 100% cho Claude
  Giờ đây sẽ là chuyện nhà cung cấp nào cho tốc độ suy luận nhanh nhất
  MiMo-v2.5.0-Pro-Ultraspeed tạo ra kết quả tốt rất nhanh và cũng đốt tiền rất nhanh
- Các mô hình này là open-weight, nhưng hiện tại phần lớn các mô hình flagship trên thực tế chỉ có thể truy cập qua nhà cung cấp mô hình bên thứ ba
  Ngoại lệ chính là các mô hình quanh mức 30B tham số, vẫn còn có thể chạy trên GPU tiêu dùng
  Nhưng GPU tiêu dùng vài năm gần đây cũng ngày càng đắt, khó mà biện minh được
- Tôi cứ cố chuyển sang các mô hình Trung Quốc, nhưng rồi cuối cùng lại phải nhờ Claude sửa đầu ra của chúng. Cả về tính năng lẫn phong cách đều vậy, và rốt cuộc tôi luôn quay lại
  Tôi cũng liên tục thử GPT và nó khá vững. Rất nhanh và debug cũng rất giỏi. Nhưng mã của nó thường thông minh quá mức đến mức nhức đầu
  Có lẽ có thể sửa bằng prompt. Điều đó có giúp được đôi chút với các mô hình Trung Quốc. Kiểu như thời AI tạo ảnh ngày xưa, chỉ cần bảo nó làm “+good -bad” một cách thanh lịch
  Hiện tại con người vẫn phải hiểu được mã, và chỉ có Claude là liên tục đáp ứng yêu cầu đó
  Dù vậy tôi vẫn hy vọng một ngày nào đó một trong các lab Trung Quốc sẽ tìm ra công thức bí mật đặc biệt
  Với các chỉnh sửa nhỏ, DeepSeek Flash cực kỳ tốt. Nó giống như có AI gần như không giới hạn luôn gắn sẵn bên cạnh vậy, rất tuyệt
- Kể từ khi dwarf star ra mắt, tôi đã dùng DeepSeek v4 flash làm mô hình chính cho gần như mọi tác vụ
  Chạy nó trên MacBook Pro M4 Max với 128GB bộ nhớ
  Tôi thường chạy nó như một server, rồi từ máy lập trình truy cập qua Tailscale để dùng Pi coding agent
  Đây là bước nhảy vọt lớn so với khi dùng các mô hình Qwen, nhưng nó không có khả năng vision, nên khi cần vision tôi vẫn chạy các mô hình bên đó
  Trước đây tôi dùng GLM 4.7 flash làm chủ lực cho coding, nhưng với mọi tác vụ không cần vision thì tôi đã chuyển hẳn sang DeepSeek
Tôi tò mò không biết có ai đã thử loại bỏ yếu tố CCP khỏi các mô hình open-weight của Trung Quốc chưa. Tôi không nói mỉa, ý tôi là đã có ai kiểm tra thật kỹ bằng các kỹ thuật như weight resilience testing hay concept activation chưa
Ví dụ, nếu CCP thật sự đã cài hành vi theo ngữ cảnh vào trong đó, thì nó phản ứng ra sao với những đầu vào có thể kích hoạt hành vi lừa dối hoặc ác ý
Tôi không biết những nghi vấn như việc nó tạo ra mã dễ bị tấn công khi dùng trong ứng dụng của chính phủ Mỹ đã từng được chứng minh thực sự hay chưa
Trong thời kỳ cạnh tranh địa chính trị gay gắt, những câu hỏi như vậy không phải là vô lý. Đây là câu hỏi áp dụng ở bất kỳ quốc gia nào
- Có thể đáng để xem TNG của Hugging Face
  Đây là một công ty tư vấn của Đức, tôi từng xem một bài trình bày về việc họ tinh chỉnh các mô hình DeepSeek và loại bỏ thiên lệch. Khá thú vị
  https://www.tngtech.com/en/about-us/news/release-of-deepseek...
  Điều đáng lo không chỉ là mã mà còn là những thứ khác như thông điệp tiềm ẩn
- Nghe giống loại tác vụ mà các công cụ như heretic có thể hữu ích
  https://github.com/p-e-w/heretic
- Các LLM do doanh nghiệp tạo ra cũng có thể bị nghi ngờ là mang thiên lệch doanh nghiệp. Không có gì là an toàn tuyệt đối

Kimi K2.7-Code: mô hình lập trình mã nguồn mở cải thiện hiệu quả token

Tổng quan mô hình

Tóm tắt mô hình

Kết quả đánh giá

Benchmark lập trình

Benchmark agent

Điều kiện đánh giá

Cấu hình benchmark

Lượng tử hóa Native INT4

Triển khai

Cách sử dụng

Điều kiện cơ bản khi gọi API

Chat Completion

Đầu vào nội dung trực quan

Preserve Thinking

Interleaved Thinking và gọi công cụ nhiều bước

Framework agent lập trình

Ví dụ chạy cục bộ

Transformers

vLLM

SGLang

Giấy phép

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News