- Đây là mô hình lập trình dạng agent xử lý các tác vụ lập trình dài hạn và quy trình kỹ thuật phần mềm phức tạp, được cải thiện từ nền tảng Kimi K2.6 để tăng khả năng hoàn thành công việc end-to-end và hiệu quả sử dụng token
- So với Kimi K2.6, lượng token suy luận đã giảm khoảng 30%, trong khi Kimi Code Bench v2 tăng từ 50.9 lên 62.0 và MCP Mark Verified tăng từ 72.8 lên 81.1
- Kiến trúc mô hình dựa trên MoE, với tổng cộng 1T tham số, 32B tham số hoạt động, độ dài ngữ cảnh 256K và bộ mã hóa thị giác MoonViT
- Việc triển khai hỗ trợ API chính thức cùng vLLM, SGLang và KTransformers; do có cùng kiến trúc với Kimi-K2.5/Kimi-K2.6 nên có thể tái sử dụng cách triển khai hiện có
- Khi sử dụng, chế độ Thinking và preserve_thinking được bắt buộc; hỗ trợ đầu vào hình ảnh và hiện chỉ hỗ trợ thử nghiệm đầu vào video trên API chính thức
Tổng quan mô hình
- Kimi K2.7-Code là mô hình agent tập trung vào lập trình dựa trên Kimi K2.6, đã được cải thiện cho các tác vụ lập trình dài hạn thực tế
- Tăng cường khả năng hoàn thành công việc end-to-end trong toàn bộ các quy trình kỹ thuật phần mềm phức tạp
- So với Kimi K2.6, mô hình giảm khoảng 30% lượng token suy luận để nâng cao hiệu quả token
- Được cung cấp cùng các thẻ image-text input, Transformers, Safetensors, conversational, custom_code
Tóm tắt mô hình
- Kiến trúc là Mixture-of-Experts(MoE), với tổng số tham số là 1T và số tham số hoạt động là 32B
- Số lớp là 61, bao gồm cả Dense layer, trong đó có 1 Dense layer
- Attention Hidden Dimension là 7168, MoE Hidden Dimension là 2048 cho mỗi expert
- Có 64 Attention Head, 384 expert, 8 expert được chọn mỗi token và 1 Shared Expert
- Kích thước từ vựng là 160K và độ dài ngữ cảnh là 256K
- Cơ chế Attention là MLA, hàm kích hoạt là SwiGLU
- Bộ mã hóa thị giác là MoonViT, với 400M tham số cho vision encoder
Kết quả đánh giá
-
Benchmark lập trình
- Trong Kimi Code Bench v2, Kimi K2.6 đạt 50.9, Kimi K2.7 Code đạt 62.0, GPT-5.5 đạt 69.0 và Claude Opus 4.8 đạt 67.4
- Trong Program Bench, Kimi K2.6 đạt 48.3, Kimi K2.7 Code đạt 53.6, GPT-5.5 đạt 69.1 và Claude Opus 4.8 đạt 63.8
- Trong MLS Bench Lite, Kimi K2.6 đạt 26.7, Kimi K2.7 Code đạt 35.1, GPT-5.5 đạt 35.5 và Claude Opus 4.8 đạt 42.8
-
Benchmark agent
- Trong Kimi Claw 24/7 Bench, Kimi K2.6 đạt 42.9, Kimi K2.7 Code đạt 46.9, GPT-5.5 đạt 52.8 và Claude Opus 4.8 đạt 50.4
- Trong MCP Atlas, Kimi K2.6 đạt 69.4, Kimi K2.7 Code đạt 76.0, GPT-5.5 đạt 79.4 và Claude Opus 4.8 đạt 81.3
- Trong MCP Mark Verified, Kimi K2.6 đạt 72.8, Kimi K2.7 Code đạt 81.1, GPT-5.5 đạt 92.9 và Claude Opus 4.8 đạt 76.4
-
Điều kiện đánh giá
- Nếu không có ghi chú riêng, Kimi K2.7 Code và K2.6 được kiểm thử trong Kimi Code CLI với chế độ Thinking bật, temperature 1.0, top-p 0.95 và độ dài ngữ cảnh 262,144 token
- GPT-5.5 được chạy ở chế độ xhigh của Codex, còn Opus 4.8 được chạy ở chế độ xhigh của Claude Code
- Ngoài các khác biệt đó, mọi benchmark đều được đánh giá trong cùng điều kiện
-
Cấu hình benchmark
- Kimi Code Bench V2 là benchmark nội bộ đánh giá agent lập trình trên các tác vụ thực tế, bao phủ hơn 10 ngôn ngữ lập trình chính và toàn bộ stack công nghệ production
- Kimi Code Bench V2 bao gồm các use case kỹ thuật nội bộ, sự cố production và các tác vụ từ dự án mã nguồn mở thực tế
- Program Bench yêu cầu tái hiện hành vi chương trình chỉ từ binary đã biên dịch và tài liệu, sử dụng 200 tác vụ và hơn 248.000 bài kiểm tra hành vi sinh bằng fuzz
- MLS-Bench đánh giá liệu hệ thống AI có thể tạo ra các phương pháp ML có khả năng khái quát hóa và mở rộng hay không; MLS-Bench-Lite là tập con chính thức gồm 30 tác vụ
- Kimi Claw 24/7 Bench là benchmark nội bộ đánh giá hiệu năng agent dài hạn trong hợp tác liên tục nhiều ngày, bao phủ 17 kịch bản chuyên môn và 610 điểm đánh giá
- MCP-Atlas đánh giá hiệu năng LLM trong các tác vụ sử dụng công cụ thực tế thông qua MCP có khả năng mở rộng
- MCPMark-Verified là phiên bản được con người xác minh của MCPMark, đánh giá việc sử dụng công cụ MCP trong 5 môi trường máy chủ thực tế gồm Notion, GitHub, Filesystem, Postgres và Playwright
Lượng tử hóa Native INT4
- Kimi-K2.7-Code áp dụng phương thức native int4 quantization giống như Kimi-K2-Thinking
Triển khai
- API của Kimi-K2.7-Code có thể được truy cập tại https://platform.moonshot.ai
- API chính thức cung cấp API tương thích OpenAI/Anthropic
- Các engine suy luận được khuyến nghị là vLLM, SGLang và KTransformers
- Kimi-K2.7-Code có cùng kiến trúc với Kimi-K2.5/Kimi-K2.6 nên có thể tái sử dụng trực tiếp cách triển khai
- Yêu cầu phiên bản
transformerslà>=4.57.1, <5.0.0 - Có thể xem ví dụ triển khai trong Model Deployment Guide
Cách sử dụng
-
Điều kiện cơ bản khi gọi API
- Demo sử dụng dựa trên cách gọi API chính thức
- Kimi-K2.7-Code bắt buộc bật Thinking và
preserve_thinking=True - Trên API bên thứ ba được triển khai bằng vLLM hoặc SGLang, trò chuyện với nội dung video hiện là tính năng thử nghiệm chỉ được hỗ trợ trên API chính thức
temperatuređược khuyến nghị cho chế độ Thinking là1.0vàtop_pđược khuyến nghị là0.95- Không hỗ trợ chế độ Instant
-
Chat Completion
- Ví dụ Chat Completion gọi API K2.7-Code ở chế độ Thinking
- Mã ví dụ dùng client
openaiđể gọiclient.chat.completions.createvà đặtmax_tokens=4096 - Trong phản hồi, in ra
response.choices[0].message.reasoningvàresponse.choices[0].message.content
-
Đầu vào nội dung trực quan
- K2.7-Code hỗ trợ đầu vào hình ảnh và video
- Ví dụ đầu vào hình ảnh mã hóa ảnh bằng base64 rồi truyền vào
image_url, tạo phản hồi vớimax_tokens=8192 - Ví dụ đầu vào video mã hóa tệp mp4 bằng base64 rồi truyền vào
video_url - Trò chuyện video hiện là tính năng thử nghiệm chỉ được hỗ trợ trên API chính thức
-
Preserve Thinking
- Kimi K2.7 Code bắt buộc chế độ
preserve_thinking, giữ lại toàn bộ nội dung reasoning trong tương tác nhiều lượt preserve_thinkinggiúp nâng cao hiệu năng trong các kịch bản agent lập trình- Tính năng này được bật mặc định và không thể tắt
- Một số API có thể không hỗ trợ
reasoning_content, khi đó có thể thửreasoning
- Kimi K2.7 Code bắt buộc chế độ
-
Interleaved Thinking và gọi công cụ nhiều bước
- K2.7-Code chia sẻ thiết kế Interleaved Thinking và Multi-Step Tool Call giống K2 Thinking
- Ví dụ sử dụng tham khảo K2 Thinking documentation
-
Framework agent lập trình
- Kimi K2.7-Code hoạt động tốt nhất khi dùng cùng Kimi Code CLI như một framework agent
- Kimi Code CLI được cung cấp tại https://www.kimi.com/code
Ví dụ chạy cục bộ
-
Transformers
- Trong Transformers, có thể tạo pipeline cấp cao bằng
pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) - Có thể tải trực tiếp mô hình bằng
AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
- Trong Transformers, có thể tạo pipeline cấp cao bằng
-
vLLM
- Cài đặt vLLM bằng
pip install vllmvà khởi động máy chủ bằngvllm serve "moonshotai/Kimi-K2.7-Code" - Ví dụ gọi sử dụng endpoint API tương thích OpenAI là
http://localhost:8000/v1/chat/completions - Trong Docker Model Runner, chạy bằng
docker model run hf.co/moonshotai/Kimi-K2.7-Code
- Cài đặt vLLM bằng
-
SGLang
- Cài đặt SGLang bằng
pip install sglangvà khởi động máy chủ bằngpython3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" - Ví dụ gọi sử dụng endpoint API tương thích OpenAI là
http://localhost:30000/v1/chat/completions - Ví dụ chạy Docker thiết lập GPU, bộ nhớ chia sẻ, bộ nhớ đệm Hugging Face và biến môi trường
HF_TOKEN
- Cài đặt SGLang bằng
Giấy phép
- Kho mã nguồn và trọng số mô hình được phân phối theo Modified MIT License
1 bình luận
Ý kiến trên Hacker News
Đọc điều khoản giấy phép đã sửa thấy khá buồn cười. Về cơ bản nó là giấy phép MIT kèm thêm một điều khoản quảng cáo kiểu BSD cũ, và gần như là yêu cầu họ được “quảng bá” nếu sản phẩm dùng nó, bất kể MAU hay doanh thu hàng tháng
Thành thật mà nói thì đây có vẻ là một yêu cầu hợp lý
Tôi đã đưa cho Kimi K2.7-code chỉ dẫn khá đơn giản để rebase bản vá Fil-C OpenSSL từ 3.3.1 lên 3.5.7, và có vẻ nó đã làm tốt
Bản vá nặng 177KB nên không phải thay đổi nhỏ, lúc đầu cũng không áp dụng sạch được nên agent phải làm khá nhiều việc thực chất
Tôi chỉ đưa bản vá cho 3.3.1, lệnh build, đường dẫn 3.5.7, và link tài liệu thay đổi (https://fil-c.org/constant_time_crypto)
Tuy nhiên tôi dùng agent code nội bộ là T800, chưa được công khai, và trước đó đã được kiểm thử cũng như tinh chỉnh đủ nhiều cho K2.5
Chi phí API hình như vào khoảng $5~$10. Đính chính: là OpenSSL chứ không phải OpenSSH
Cá nhân tôi thấy khi dùng mã nguồn mở hoặc router, qua một ngưỡng nhất định thì khác biệt giữa các model không còn quá rõ. Ngoại lệ là những model đắt mà lưng chừng như Gemini
Theo nghĩa đó thì các model từ Trung Quốc khá ổn. Tôi thường để chúng viết code ở mức hàm hoặc phương thức trước, rồi mới thiết kế và lắp ghép
Dòng GPT vẫn cẩn thận hơn và tốt hơn, nhưng tôi không chắc chênh lệch có lớn đến vậy không. Có lẽ còn tùy workflow, nhưng nếu kiểm soát đủ chặt thì tôi nghi ngờ là liệu khác biệt có thực sự lớn hay không
Việc biến MacBook M1 Pro thành miếng sưởi khi chạy Qwen 3.6 35B A3B MTP thì ở mức nào đó lại khá thành công
Khi cố dùng các model Gemini theo kiểu “local”, tôi gặp vấn đề tương tự: lượng nỗ lực bị cắt quá ngắn nên hay sai và số lượt trao đổi tăng lên
Ngược lại, khi nghe nói Fable rất dai dẳng và “chủ động”, tôi thấy nếu có branding mạnh và cách thu phí hiệu quả thì hoàn toàn có thể đi theo hướng ngược lại
Nếu đã có một thiết kế nhất quán, mà đó mới là phần khó, thì đưa vào model khá nhỏ vẫn cho ra chất lượng gần như tương đương
Nó không hoàn thành trong một phát, nhưng nhanh hơn và rẻ hơn nên rốt cuộc lại có lợi. Hơn nữa còn có thể chạy local
Vì thế cần phải thiết lập rõ ràng để các test bị comment sẽ làm hỏng bản build. Cá nhân tôi chưa gặp vấn đề đó với model của Anthropic hay OpenAI
Giống như ngày xưa gọi ô tô là “xe Nhật”, giờ gần như không còn nhiều ý nghĩa nữa, và người ta просто gọi là Toyota, Honda, Lexus
nếu có ai đã dùng thử opencode + Kimi K2.6/2.7 và so sánh với Claude Code thì mình thật sự rất muốn biết. Muốn biết cái nào tốt hơn, cái nào kém hơn, và so sánh chi phí ra sao
Hiện tại mình đang trả $100 cho gói 5x Max, nhưng Fable tiêu hao hạn mức sử dụng khá nhanh, và cũng khó nói là khác biệt một trời một vực so với Opus
Vì chủ yếu dùng cho dự án phụ nên hóa đơn $100 cũng đã thấy khá lớn rồi, mình không muốn trả nhiều hơn nữa
Claude Code đúng là tốt hơn. Nhưng điểm quan trọng là opencode + Kimi 2.6 vẫn dùng ổn
Nếu bạn biết chính xác mình muốn gì và chỉ giao việc viết mã đơn giản, thì đa số các model phổ biến như DeepSeek, Kimi cũng đều khá ổn và không khác Anthropic quá nhiều
Ngược lại, Opus hiểu ý định tốt hơn DeepSeek rất nhiều. Khi dùng DeepSeek thì phải viết prompt chính xác hơn nhiều, còn viết mơ hồ thì nó thường đi chệch hướng
Kimi nằm ở giữa. Nó phần nào khôi phục được luồng làm việc kiểu “prompt lỏng”, và kế hoạch của nó đáng tin hơn DeepSeek
Có thể có quy trình làm việc tương tự Claude Code, nhưng nhìn chung mọi thứ đều kém hơn một chút. Độ dài ngữ cảnh, số lỗi, khả năng ra quyết định, gợi ý và debug đều yếu hơn đôi chút
Về mức sử dụng, gói Claude $100 thực ra có hiệu quả chi phí tốt. Tính theo đơn giá token thì Kimi rẻ hơn nhiều, nhưng có vẻ gói đăng ký Claude được trợ giá khá mạnh nên với $100 bạn nhận được nhiều token hơn rất nhiều so với số mua được qua API
Cuối cùng, với kiểu sử dụng tương tự thì chi phí của opencode + Kimi và Claude Code có thể gần ngang nhau
DeepSeek rẻ hơn nữa và token cache thì rẻ đến mức khó tin, nhưng nếu chuyển từ Claude Code sang thì có thể phải điều chỉnh cách làm việc tùy theo thói quen
Nếu là dự án phụ thì mình thấy cấu hình gói $10 Opencode Go cộng thêm $10 credit DeepSeek v4 ở nơi như OpenRouter là khá thực dụng
Kimi giống như một lập trình viên đang phỏng vấn nên thú vị hơn. Xem quá trình nó suy luận về vấn đề khá giống cách mình giải thích trong một buổi whiteboard session. Nó nói “wait” quá thường xuyên nên khá buồn cười
Claude giống một nhân viên đã được tuyển hoặc cả một nhóm nhân viên hơn. Nó không giải thích dài dòng ngay từ đầu, chỉ hỏi khi cần rồi đưa ra báo cáo hoặc kế hoạch tổng thể
Mình thấy OpenCode là một harness tốt hơn. Về chi phí thì mình chưa từng chạy chính xác cùng một prompt ở cả hai bên nên không thể so sánh trực tiếp
Gần đây mình đã để Kimi tạo một wrapper libpq cho ngôn ngữ lập trình ZenC(https://github.com/nobleach/zenc-postgres), mất khoảng một giờ và chi phí khoảng $4
DeepSeek-V4-Pro đủ tốt, còn DS4-Flash thì có thể dùng cho những việc hoặc hoạt động nhỏ mà bạn thường giao cho Haiku hay Sonnet. Chỉ cần nạp trước $10 để đăng ký
OpenCode Go có thể đăng ký với giá $5/tháng để dùng Qwen-3.7-Max cho thiết kế, lập kế hoạch, kiến trúc và giải quyết vấn đề khó. Nó cho cảm giác gần Opus 3.6 hoặc 3.7 hơn DeepSeek, và là thứ giống nhất mình từng tìm được
OpenAI Codex với gói $20/tháng cho phép dùng GPT-5.5 qua API cho thiết kế, lập kế hoạch, kiến trúc, giải quyết vấn đề và viết commit. Với vấn đề thật sự khó thì có thể trả $100 rồi copy vào chat GPT-5.5-Pro
Xiaomi MiMo-2.5-Pro có thể nhận 72 cent credit miễn phí nếu xin bạn bè mã giới thiệu $2. Giá của nó ngang DeepSeek và năng lực khá tốt, đâu đó nằm giữa Sonnet và Opus. Cũng đáng thử đăng ký UltraSpeed beta
Trong OpenCode hoặc ohmypi, bạn chỉ cần đổi qua lại các model này ngay tại chỗ để tìm ra cái hợp nhất với mình. Mình dùng CodexBar để xem mức sử dụng gần như theo thời gian thực
Với người dùng nhẹ hoặc người mới học lập trình, gói $20 của Cursor là điểm bắt đầu tốt với Composer-2.5 và Composer-2.5-Fast. Nó cũng có hạn ngạch API, nên ngoài chính Cursor ra bạn còn có thể truy cập Opus-4.x hoặc GPT-5.5-Pro từ OpenCode hay ohmypi
Nếu dùng Grok hoặc Twitter, thì SuperGrok $30/tháng có model vision tốt và mình đã dùng nó cho kiểm thử tự động frontend. Tuy vậy hiện tại mình đang chuyển sang Qwen-3-VL chạy cục bộ trên Mac thường. Nếu ít rành kỹ thuật hơn thì unreach giúp việc host model cục bộ trên Mac dễ hơn
Nếu có GPU mạnh như RTX 5090 thì Qwen-3.6 cũng đáng thử chạy cục bộ. Dùng ollama hoặc llama-swap thì tương đối dễ
Mình vẫn chưa thử Kimi mới, nhưng đang vận hành một đội gồm 3 lập trình viên chuyên nghiệp, 1 nhà thiết kế đồ họa dùng nhiều Midjourney và Grok Imagine, và 1 người không chuyên kỹ thuật dùng ohmypi để thu thập yêu cầu và theo dõi triển khai, trong khi vẫn giữ chi phí dưới $200 mỗi nhân viên mỗi tháng
Chỉ cần tối ưu thêm chút nữa thì có thể tiến gần mức $75 mỗi nhân viên mỗi tháng
Tính năng duy nhất không hoạt động là webfetch và tìm kiếm web, nhưng mình đã thay thế bằng cách cho agent đi đường vòng qua ddg MCP và pre-hook lấy/tìm kiếm web
Bộ nhớ, caching và những phần còn lại đều hoạt động tốt
Qwen trong việc lập kế hoạch thì gần Opus, nhưng Fable rõ ràng vẫn vượt trội hơn
Về coding, nếu Opus viết sẵn kế hoạch thì kết quả của Kimi và DeepSeek gần như không phân biệt được với Opus
Khác biệt lớn nhất là nhịp xuất đầu ra. Ví dụ Kimi sẽ suy nghĩ lâu rồi xuất ra rất nhiều văn bản thật nhanh
Hiện tại mình đang thử Fable cho nghiên cứu và lập kế hoạch, còn DeepSeek v4 flash cho coding. Kết quả có vẻ tương tự Opus + DeepSeek v4 pro nhưng tổng chi phí có lẽ thấp hơn
Tốt, xử lý khá ổn hầu hết các tác vụ được ném vào, nhưng thất bại ở các tác vụ phức tạp về mặt nhận thức. Thường xuyên bị kẹt. Dù vậy chỉ khoảng $6/tháng.
Có một ngưỡng mà mô hình “tốt nhất” không còn quá quan trọng nữa, và tôi nghĩ chúng ta không còn cách nó xa. Fable hiện giờ thực sự rất tốt, nhưng nếu khoảng 1 năm nữa Kimi bắt kịp thì dù Fable6 có tốt hơn nhiều, nếu giá chỉ bằng 1/10 thì có lẽ tôi sẽ dùng Kimi
Trước đây khi nhìn Opus 4.5, tôi từng nghĩ “nếu tốt đến mức này thì trong 6~12 tháng nữa các mô hình Trung Quốc sẽ đạt mức tương tự và rẻ hơn, khi đó mình sẽ dùng chúng”, nhưng tôi đã sai. Ngay cả bây giờ tôi vẫn đang trả premium cho Opus 4.7/8 và Fable
Dù vậy, đến một lúc nào đó chúng sẽ đạt đến mức chỉ cần làm được việc mình muốn, và từ thời điểm đó sẽ bắt đầu cuộc cạnh tranh giảm giá
Giờ đây các công ty Trung Quốc đã có thể tiếp cận những token Fable rất tốt, nên tôi hy vọng cuộc cạnh tranh đó sẽ diễn ra nhanh hơn
Vì vậy dù đơn giá token cao hơn, mô hình tốt hơn trên thực tế vẫn có thể rẻ hơn
Nếu Opus đắt gấp 5 lần Kimi K2.6 hay các mô hình Trung Quốc khác mà chỉ tốt hơn một chút, tôi từng tự hỏi các công ty như Anthropic làm sao duy trì được năng lực cạnh tranh
Giả thuyết của tôi là các công ty Mỹ không thể gửi dữ liệu sang phía Trung Quốc, và điều đó thì dễ hiểu. Nhưng liệu đó có thật sự là một “hào lũy” không?
Tôi nói điều này với tư cách người dùng Kimi khá thường xuyên và nhìn chung là thích nó
Trên các benchmark chưa bị game hóa như DeepSWE, Kimi K2.6 thua khá xa Claude Sonnet 4.6($3/$15), và cũng hơi thua GPT 5.4 Mini($0.75/$4.50)
Rõ ràng mô hình Kimi rất tốt trong nhiều tác vụ lập trình và là mô hình open-weight có chất lượng tốt nhất
Nhưng để có được kết quả tổng thể tương tự Sonnet/Opus thì trung bình phải dùng nhiều token hơn đáng kể và quản lý mô hình nhiều hơn
Cần nhìn vào tổng chi phí của cả quy trình, chứ không chỉ giá trên mỗi token
Ngoài ra, trong những trường hợp chi tiêu lớn thì cũng có đủ các bên hợp lý chạy đánh giá, nên khả năng cao “tốt hơn một chút” không chỉ là cảm giác thuần túy
Tuy vậy, bộ đánh giá mà tôi trực tiếp xem được cũng chỉ là một phần. Cũng có thể mọi người đều phi lý và Anthropic đang tận dụng điều đó
Kimi và các mô hình mã nguồn mở khác có thể đạt điểm tốt ở những bài như SWE-bench, nhưng khi dùng thực tế thì cảm nhận được khoảng cách
Thật lạ là ai cũng dựa vào giá API để nói thuê bao Claude đang được trợ giá, nhưng thực tế không ai biết chi phí suy luận thật của Claude, và các nhà cung cấp Trung Quốc cũng có thể cung cấp suy luận giá rẻ. Vậy thì tại sao lại cho rằng Claude không thể làm được điều đó?
Cũng có thể khách hàng doanh nghiệp có các thỏa thuận giá API khác không được công khai. Những gì chúng ta nhìn thấy có thể chỉ là mức giá niêm yết cao
Trong các tác vụ đó, chênh lệch lớn như vực thẳm
Sau khi thử nghiệm nghiêm túc thì đây có vẻ là một cải tiến khá ổn. Chỉ riêng việc dùng ít token hơn cho cùng một tác vụ cũng đã là lý do đủ mạnh để dùng nó thay cho K2.6 khi cần mô hình mở
Nếu một mô hình mới không thực sự vượt DeepSeek v4 khoảng 20~30% mà lại có giá mỗi token cao hơn DeepSeek, thì tôi nghĩ gần như tự động nó sẽ bị đẩy thành mô hình ít người dùng. Có lẽ vẫn dùng được cho mục đích lập kế hoạch
Tôi vẫn chưa thật sự quen với mô hình open-weight/open-source. Nếu có ai dùng toàn thời gian, tôi muốn nghe về cách thiết lập và hiệu năng. Tôi đang cân nhắc chuyển cả tổ chức khỏi các sản phẩm của Anthropic
Về chất lượng mô hình thì không khác biệt lớn, nhưng chênh lệch chi phí thì vô lý luôn. Ít nhất là theo cách tôi dùng agent
Ví dụ hôm qua, tôi đang phát triển một DSL nhỏ để truy vấn tài liệu kỹ thuật phức tạp và muốn thử Fable để thêm một toán tử nhỏ
Fable đốt $13 và có đưa ra lời giải, nhưng xét khách quan thì không tốt hơn việc DeepSeek v4 làm cùng tác vụ với $1.7
Tuy nhiên, tôi giao cho agent các tác vụ nhỏ, tách rời. Với DSL này, tôi tự thiết kế các toán tử rồi để agent triển khai từng cái một
Nếu tôi bắt đầu từ một tài liệu phức tạp và bảo nó thiết kế toàn bộ thì có lẽ Fable đã tỏa sáng
Nhưng mỗi lần tôi giao cho agent công việc có phạm vi rộng hơn, nó lại đốt hàng triệu token và sinh ra mã đáng ngờ, cuối cùng tôi vẫn phải mất thời gian tự tìm hiểu
Ví dụ, nếu xem một file như https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... thì tôi có ghi rõ mô hình đã dùng
4.7 không thật sự tốt với mã
go, nên đó là lúc attribution bắt đầu xuất hiệnGemini 3 Flash4.7 là mô hình do Cerebras cung cấp, còn với tôi thì tốc độ lặp lại quan trọng hơn nhiều
Sau khi dùng thử MiMo v2.5.0-Pro, tôi tin chắc nó có thể làm được 100% những gì Gemini 3 Flash đã làm
Có vài lần bị mắc kẹt thì tôi phải nhờ Sonnet giải thích, nhưng bí mật bẩn thỉu mà Anthropic và OpenAI sẽ không nói là nếu bạn biết lập trình thì các mô hình hiện nay thành thật mà nói đã đủ tốt rồi
Từ trải nghiệm với MiMo và các đánh giá của người khác về GLM 5.1, tôi nghĩ giờ đây cuộc cạnh tranh đã chuyển sang phần cứng
Với những người biết lập trình và muốn dùng AI để khuếch đại những gì mình đã biết, các mô hình Trung Quốc là bản thay thế 100% cho Claude
Giờ đây sẽ là chuyện nhà cung cấp nào cho tốc độ suy luận nhanh nhất
MiMo-v2.5.0-Pro-Ultraspeed tạo ra kết quả tốt rất nhanh và cũng đốt tiền rất nhanh
Ngoại lệ chính là các mô hình quanh mức 30B tham số, vẫn còn có thể chạy trên GPU tiêu dùng
Nhưng GPU tiêu dùng vài năm gần đây cũng ngày càng đắt, khó mà biện minh được
Tôi cũng liên tục thử GPT và nó khá vững. Rất nhanh và debug cũng rất giỏi. Nhưng mã của nó thường thông minh quá mức đến mức nhức đầu
Có lẽ có thể sửa bằng prompt. Điều đó có giúp được đôi chút với các mô hình Trung Quốc. Kiểu như thời AI tạo ảnh ngày xưa, chỉ cần bảo nó làm “+good -bad” một cách thanh lịch
Hiện tại con người vẫn phải hiểu được mã, và chỉ có Claude là liên tục đáp ứng yêu cầu đó
Dù vậy tôi vẫn hy vọng một ngày nào đó một trong các lab Trung Quốc sẽ tìm ra công thức bí mật đặc biệt
Với các chỉnh sửa nhỏ, DeepSeek Flash cực kỳ tốt. Nó giống như có AI gần như không giới hạn luôn gắn sẵn bên cạnh vậy, rất tuyệt
Chạy nó trên MacBook Pro M4 Max với 128GB bộ nhớ
Tôi thường chạy nó như một server, rồi từ máy lập trình truy cập qua Tailscale để dùng Pi coding agent
Đây là bước nhảy vọt lớn so với khi dùng các mô hình Qwen, nhưng nó không có khả năng vision, nên khi cần vision tôi vẫn chạy các mô hình bên đó
Trước đây tôi dùng GLM 4.7 flash làm chủ lực cho coding, nhưng với mọi tác vụ không cần vision thì tôi đã chuyển hẳn sang DeepSeek
Tôi tò mò không biết có ai đã thử loại bỏ yếu tố CCP khỏi các mô hình open-weight của Trung Quốc chưa. Tôi không nói mỉa, ý tôi là đã có ai kiểm tra thật kỹ bằng các kỹ thuật như weight resilience testing hay concept activation chưa
Ví dụ, nếu CCP thật sự đã cài hành vi theo ngữ cảnh vào trong đó, thì nó phản ứng ra sao với những đầu vào có thể kích hoạt hành vi lừa dối hoặc ác ý
Tôi không biết những nghi vấn như việc nó tạo ra mã dễ bị tấn công khi dùng trong ứng dụng của chính phủ Mỹ đã từng được chứng minh thực sự hay chưa
Trong thời kỳ cạnh tranh địa chính trị gay gắt, những câu hỏi như vậy không phải là vô lý. Đây là câu hỏi áp dụng ở bất kỳ quốc gia nào
Đây là một công ty tư vấn của Đức, tôi từng xem một bài trình bày về việc họ tinh chỉnh các mô hình DeepSeek và loại bỏ thiên lệch. Khá thú vị
https://www.tngtech.com/en/about-us/news/release-of-deepseek...
Điều đáng lo không chỉ là mã mà còn là những thứ khác như thông điệp tiềm ẩn
https://github.com/p-e-w/heretic