7 điểm bởi GN⁺ 2025-08-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • grok-code-fast-1 do xAI phát hành là một mô hình AI lập trình siêu nhanh dành cho nhà phát triển, có khả năng phản hồi cực nhanh và các tính năng thân thiện với IDE
  • Mô hình này được tiền huấn luyện tập trung vào bộ dữ liệu lập trình và được thiết kế để thành thạo trong việc sử dụng các công cụ như grep, terminal, chỉnh sửa tệp thông qua đánh giá từ người dùng thực tế
  • Hiệu năng đạt tốc độ sinh 190 token mỗi giâyđiểm 70,8% trên SWE-Bench-Verified, đồng thời thể hiện thế mạnh ở nhiều ngôn ngữ như TypeScript, Python, Java, Rust, C++, Go
  • Giá được ấn định ở mức $0.20 cho mỗi 1 triệu token đầu vào, $1.50 cho đầu ra, $0.02 cho đầu vào được cache, và trên một số nền tảng đối tác (GitHub Copilot, Cursor, v.v.) hiện đang được cung cấp miễn phí trong thời gian giới hạn
  • Một biến thể hỗ trợ đầu vào đa phương thức, gọi công cụ song song, ngữ cảnh mở rộng cũng sẽ sớm được công bố

Tổng quan

  • grok-code-fast-1 của xAI là một mô hình AI lập trình siêu nhanh được phát triển để giải quyết vấn đề suy giảm tốc độ trong môi trường phát triển thực tế, nơi việc suy luận lặp lại và sử dụng công cụ diễn ra thường xuyên
  • Dựa trên phản hồi từ các kỹ sư đang làm việc thực tế, mô hình được xây dựng lại từ đầu với kiến trúc phù hợp cho công việc thực chiến, nhanh nhạy và linh hoạt
  • Đội ngũ kỹ thuật suy luận và hạ tầng tính toán đã đưa nhiều phương pháp đổi mới vào công nghệ phục vụ mô hình với tốc độ áp đảo
    • Người dùng có thể cảm nhận rằng nhiều lệnh gọi công cụ đã được thực hiện trước cả khi họ kịp đọc hết luồng suy nghĩ
  • Nhờ tối ưu hóa prompt caching, mô hình đạt tỷ lệ cache hit trên 90% trong môi trường đối tác

Thiết kế và bộ dữ liệu

  • Môi trường huấn luyện được xây dựng dựa trên dữ liệu pretraining khổng lồ tập trung vào lập trình
  • Quá trình post-training chất lượng cao được thực hiện với dữ liệu pull request và dữ liệu viết mã thực tế
  • xAI hợp tác chặt chẽ với nhiều đối tác ra mắt để liên tục cải thiện cách mô hình hoạt động trong các nền tảng agentic
Quảng cáo

Tính năng chính và môi trường hỗ trợ

  • grok-code-fast-1 sử dụng thành thạo các công cụ phát triển phổ biến như grep, terminal, chỉnh sửa tệp
  • Người dùng có thể sử dụng ngay trong IDE và các môi trường phát triển chính

Hiệu năng lập trình

  • Hỗ trợ toàn bộ software development stack
  • Thể hiện khả năng vượt trội trong TypeScript, Python, Java, Rust, C++, Go
  • Ngay cả khi có rất ít giám sát, mô hình vẫn có thể xử lý nhanh và chính xác nhiều tác vụ lập trình như tạo dự án từ zero đến one, hỏi đáp trên codebase, sửa lỗi chính xác
  • Grok Code Fast 1 mang lại độ phản hồi nhanh nhất trong số các mô hình hiện có
  • Khi chia công việc thành các đơn vị nhỏ để sử dụng, mô hình đặc biệt có lợi cho việc xây dựng workflow lặp lại và tốc độ cao
  • Ví dụ thực tế: hoàn thành một prototype Battle Simulator chỉ trong một ngày trong môi trường Cursor
  • Việc lập kế hoạch cho tính năng lớn, chia nhỏ theo từng bước rồi thực thi lặp lại sẽ hiệu quả hơn

Chính sách giá

  • $0.20 cho mỗi 1 triệu token đầu vào
  • $1.50 cho mỗi 1 triệu token đầu ra
  • $0.02 cho mỗi 1 triệu token đầu vào được cache
  • Nhờ hiệu năng cao và mức giá kinh tế, mô hình có thể xử lý nhanh và hiệu quả các tác vụ lập trình hằng ngày
Quảng cáo

Hiệu năng mô hình và đánh giá

  • Tốc độ xử lý token (Tokens Per Second, TPS): 190, thuộc nhóm cao nhất ngành
  • Khi so sánh với các mô hình khác như Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4, mô hình cho thấy năng lực cạnh tranh mạnh mẽ cả về giá lẫn tốc độ xử lý
  • Kết hợp cả benchmark công khai đa dạng và các bài kiểm tra thực tế từ nhà phát triển
    • Đạt 70,8% trên tập con SWE-Bench-Verified
  • Kết hợp đánh giá định kỳ từ kỹ sư thực tế với kiểm thử tự động để tối đa hóa tính hữu dụng và mức độ hài lòng của mô hình

Kế hoạch sắp tới và hướng dẫn sử dụng

  • Được cung cấp qua API chính thức và các đối tác lớn, đồng thời đang có chương trình dùng thử miễn phí trong thời gian giới hạn
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf, v.v.
  • Cam kết cập nhật liên tục và chu kỳ cải tiến nhanh
  • Một biến thể mới đang được huấn luyện, bao gồm các tính năng như đầu vào đa phương thức, gọi công cụ song song, hỗ trợ ngữ cảnh mở rộng
  • Cũng có cung cấp riêng hướng dẫn prompt engineering
  • Có thể chia sẻ ý kiến qua model card và các kênh phản hồi (Discord, v.v.)

1 bình luận

 
GN⁺ 2025-08-30
Ý kiến trên Hacker News
  • Hôm qua tôi đã thử bằng Cline, tốc độ nhanh, rất hợp với agentic flow và chất lượng code cũng khá ổn, không hiểu vì sao thread này lại tiêu cực như vậy (đang gõ còn bị dính flag). Tôi thấy model này ổn, cảm giác ngang hoặc hơn mức gpt5-mini. Tôi đã dùng gpt5-mini làm model chính vài ngày nay, vừa khớp ngân sách lại vẫn làm tốt việc cần làm

    • Những điểm tôi chú ý:

      • Tốc độ nhanh (test theo múi giờ EU)
      • Xử lý kiểu agentic khá thú vị, thay vì sửa cả file một lần thì chỉnh dần từng ít một qua nhiều lượt
      • Tôi đã dùng khoảng 110k token cho một tác vụ liên quan đến parse HTML (bs4) mà nó vẫn hoàn thành trơn tru, không gặp vấn đề gì trong bối cảnh context lớn
      • Nếu lần thử đầu thất bại, nó tạo file riêng để mock/test trước, rồi khi thành công mới sửa file module chính. GPT5-mini thì đôi khi bị rối khi sửa file trong lúc làm và dẫn đến thất bại
    • Nhìn chung khá ổn, đáng để dùng hằng ngày so với mức giá, cũng có thể hình dung việc dùng Opus+gpt5 high làm planner và để model này làm implementer. Vì tốc độ nhanh nên kiểu thiết lập pass@x chạy song song cũng có vẻ thú vị

    • Việc có nhiều lựa chọn ở mọi tầng là điều tốt, cần nhiều nhà cung cấp cạnh tranh để họ phải dè chừng nhau và kéo giá xuống. gpt5-mini là 2$/MTok, model này cỡ 1.5$/MTok nên gần như có cảm giác “miễn phí”, tôi không hiểu bầu không khí tiêu cực này

    • Qwen3-Coder-480B (được host trên Cerebras) có giá 2$/Mtok qua OpenRouter, tính cả input/output

      • Trên OpenRouter, Cerebras nói họ cung cấp hơn 2000 token mỗi giây, tức nhanh hơn tới 10 lần
      • Benchmark độc lập có vẻ cho thấy model Qwen3-Coder-480B tốt hơn
    • Có nên coi là model tốt nếu dùng đến khoảng một nửa context length không? Với qwen3-coder tôi có cảm giác nó bắt đầu rối ở mức 65k/256k, và còn đắt hơn grok 50%

    • Đọc review rất hay, tôi tò mò nếu so với claude code thì thế nào

    • Tôi cũng nghĩ tương tự, gần đây đang dùng model này và thấy khá ổn, tốc độ cũng rất nhanh

      • Comment trên HN có vẻ tiêu cực với Elon Musk và phản ứng thiên lệch với LLM, nên model này không được đánh giá công bằng
  • Điều thú vị là benchmark mà model này nhấn mạnh lại là tốc độ xuất token, thậm chí còn gắn luôn chữ “fast” trong tên

    • Nói chung tôi nghĩ software engineer sẽ coi chất lượng token quan trọng hơn tốc độ

    • Vấn đề là nó nhanh đến mức nào

      • Nếu đầu ra LLM vốn vẫn hay sai, thì việc thử prompt nhiều lần thật nhanh và tinh chỉnh lặp đi lặp lại có thể giá trị hơn
      • Nói cực đoan, nếu có thể xử lý cả project trong vài mili giây thì dù tỉ lệ thành công y hệt, nó vẫn có giá trị hơn rất nhiều
      • Kiểu tốc độ này có thể thay đổi không chỉ trải nghiệm người dùng mà còn cả cách dùng công cụ
      • Thậm chí có thể nhận ngay 3 đề xuất khác nhau
      • Cá nhân tôi không muốn dính đến X nên sẽ không dùng Grok, đó chỉ là sở thích cá nhân
    • Đây cũng không phải metric tệ nhất mà xAI từng nghĩ ra

    • Tôi đã thử API miễn phí của Cerebras (có Qwen Coder 480b và gpt-oss-120b, không phải quảng cáo) và nó thực sự nhanh, cỡ 3000 token mỗi giây

      • Vì vậy tôi luôn kiểm tra tốc độ model
      • Tuy nhiên cloud của Cerebras có giới hạn 70 triệu token mỗi ngày, và có phản hồi rằng rất nhanh đụng trần, nên dùng cho phát triển hằng ngày vẫn bị hạn chế nhiều
    • Còn tùy mục đích

      • Với autocomplete hàm đơn giản (xử lý chuỗi, định nghĩa hàm, v.v.) thì tốc độ quan trọng hơn
      • Với kiểu coding đang cân nhắc hướng đi thì chất lượng quan trọng hơn, nhưng nếu tôi đã biết rõ mình đang làm gì thì model bớt thông minh nhưng nhanh sẽ giúp workflow hơn
      • Model chậm buộc bạn phải soi code như review PR, nên workflow thay đổi khá nhiều
    • Tốc độ rất quan trọng

      • Tất nhiên nếu chất lượng quá kém thì vô nghĩa, nhưng nếu có model vừa nhanh vừa tốt cỡ Claude Sonnet 4 thì với agentic coding nó có thể thay đổi cuộc chơi
      • Hiện giờ cứ gửi prompt là phải chờ từ 30 giây đến vài phút, nên rất khó thử nghiệm thực sự
      • Nếu chỉ mất vài giây thì sẽ làm được công việc mang tính thử nghiệm và lặp lại nhiều hơn rất nhiều
      • Đặc biệt hữu ích với code frontend, nơi phải lặp đi lặp lại việc đổi UI
  • Tôi tò mò trên HN mọi người đang dùng gì cho AI coding assistant, ví dụ plugin VSCode nào, rất muốn nghe mẹo dùng thực tế

  • Tôi thắc mắc liệu “bản coding” từng xuất hiện khi Grok-4 bị chê hiệu năng code kém có phải chính là model này không

    • Có vẻ khi benchmark yếu thì họ mang ra hạng mục dễ thổi phồng hơn là tốc độ

    • Tìm thử thì chỉ thấy các bài ca ngợi model này từ những tài khoản spam rất lộ liễu trên Reddit

    • Link tài khoản đó

    • Tôi có cảm giác nó dựa trên Grok 3, vì Grok 3 từng rất nhanh và chuyên về lập trình

  • Theo toàn bộ "SWE-Bench-Verified", grok-code-fast-1 được nói là đạt 70.8% trong benchmark nội bộ, nhưng tôi muốn xem kỹ công cụ benchmark đó

    • Báo cáo bên thứ ba chỉ ra mức khoảng 57.6%

    • Link liên quan

      • Có thể hơi nitpick, nhưng tôi bị sốc vì vừa mở site lên là cách hiển thị ngày tháng đã rất lộn xộn (thứ tự ngày/tháng/năm bị đảo lung tung)

      • Không chỉ gây rối mà còn khiến sắp xếp không đúng

      • Tôi thử sort cột ngày thì ra kết quả hoàn toàn vô lý (nó sort theo mục ở giữa)

      • Những thứ cơ bản như vậy mà còn không để ý thì dễ khiến người ta nghi code cũng cẩu thả

      • [Một số quốc gia vẫn dùng kiểu hiển thị này, nhưng phần lớn đã chuyển sang chuẩn]

      • Dù vậy, so với các model khác thì thành tích của nó vẫn khá tốt

  • Tôi từng có kết quả khá ổn ngay cả với bản Grok 4 thường

    • Vấn đề là nó hầu như không giải thích gì, chỉ thay code luôn, nhưng kết quả cuối thì không tệ
    • Cá nhân tôi muốn có thêm phản hồi và giải thích về các thay đổi được đề xuất hơn là chỉ có một bản nhanh hơn
    • Gần đây tôi lại thấy GPT-5 hữu ích hơn Sonnet 4
      • Khi hỏi về các lựa chọn kiến trúc khác nhau, nó cho câu trả lời rất tốt và hướng dẫn từng bước trong quá trình giải quyết vấn đề, điều đó tôi rất thích

      • So với kiểu “one-shot” viết lại toàn bộ code trong một lần, tôi thích quá trình dần đi đúng hướng tôi muốn hơn

      • Tôi nghĩ cách đánh giá one-shot cho Opus 4.1 hay dòng Sonnet không thật sự chính xác, tiêu chí quan trọng là vai trò trợ lý thực thụ

      • gpt-5 cũng có lúc cố chấp đi theo hướng tôi không muốn, dù trao đổi thế nào nó vẫn lặp lại cùng một kiểu hành vi

        • Vì điểm này mà có người lại thích kiểu phản hồi “vâng, đúng rồi” của các model như Claude
        • Tùy mức kinh nghiệm phát triển mà kỳ vọng ở model sẽ khác nhau, nhưng với tôi điều quan trọng là quyền quyết định cuối cùng vẫn ở mình
      • Sonnet 4 có thể thua GPT-5 ở thiết kế kiến trúc hay phân tích sâu, nhưng khi kế hoạch chi tiết đã có sẵn và chỉ cần cày ra thật nhiều code thì Sonnet 4 làm tốt hơn

  • Sau vài ngày test Grok, tôi lại thấy như nó bị thụt lùi

    • Tôi đã gặp chuyện nó xóa ngẫu nhiên một phần code của mình, lâu rồi mới lại bị kiểu này

    • Các model coding hàng đầu dạo này đã khá đáng tin, nhưng Grok có cảm giác vẫn chưa tới mức đó

    • Dù có nhanh và miễn phí đến đâu, nếu không thể tin tưởng giao code cho nó thì cũng không dùng như một công cụ được

      • Tôi đã thử miễn phí Grok Code Fast 1 trong Kilo Code và kết quả rất tệ

        • Nó kém tin cậy hơn GPT 5 Mini, trớ trêu là còn chậm hơn
      • Full Self Coding?

      • Tôi tò mò bạn đang dùng nền tảng/ngôn ngữ gì

        • Những review không nêu rõ bối cảnh thì chênh lệch quá cực đoan nên khó hiểu
        • Khác biệt giữa các ngôn ngữ là rất lớn, đặc biệt mảng web dev với TS thì lúc nào kết quả cũng tốt hơn
      • Việc xóa một phần code có thực sự là vấn đề không? Chẳng phải đã có version control sao?

  • Nó làm những chuyện vô lý rất nhanh, và đó không phải điều tốt

    • Có lẽ hợp với các tác vụ đơn giản, cụ thể như CRUD endpoint, file i8n, còn ngoài ra thì tôi không chắc

      • Tôi đúng là dùng model này cho đúng kiểu việc đó

        • Nó rất hợp làm model xử lý “việc vặt đơn giản nhưng phiền phức”
        • Không phải lúc nào cũng cần model thông minh; cứ dùng nó để xử lý nhanh số lượng lớn những việc không ai muốn làm
        • Nhưng nếu không mô tả cụ thể hơn thì kết quả rất dễ đi chệch hướng
        • Ngược lại, nếu đưa ví dụ rõ ràng thì nó làm đúng việc được giao khá tốt
      • Tôi nhờ nó cải thiện Justfile, cuối cùng nó làm rối tung mọi thứ và rơi vào vòng lặp vô hạn

        • Tôi dùng trong Kilo Code, trải nghiệm có thể khác nhau tùy người
  • Ngay từ thời stealth của model ‘sonic’, tốc độ đã nhanh nhưng chất lượng thì không đủ chính xác như cần thiết

    • Nó có tạo test code và chạy lặp lại, nhưng lại chỉ kiểm tra các lời gọi mock chứ không xác minh hành vi đúng như ý định

    • Có giới hạn là chưa thật sự chú ý đến pattern sử dụng thực tế

      • Với những trường hợp như vậy, có vẻ nó sẽ mạnh ở việc sinh boilerplate
  • Cá nhân tôi thấy khá ấn tượng

    • Khi tôi hỏi về refactoring, nó gọi nhiều tool để đọc code rất nhanh, phân tích logic rồi bảo rằng đã tìm ra 2 bug
    • Tất nhiên cả hai đều không phải bug
    • Nhưng dù sao thì nó cũng “trông rất ngầu”