Grok 4 Fast

(x.ai)

4 điểm bởi GN⁺ 2025-09-21 | 2 bình luận | Chia sẻ qua WhatsApp

Grok 4 Fast do xAI công bố là mô hình suy luận thế hệ mới, được xây dựng trên thành quả huấn luyện của Grok 4 hiện có, với mục tiêu tối đa hóa hiệu quả chi phí và tốc độ
Mô hình này có cửa sổ ngữ cảnh 2M token, khả năng tìm kiếm web và X, cùng kiến trúc hợp nhất reasoning / non-reasoning, phù hợp cho các tình huống sử dụng thời gian thực
Trong benchmark, mô hình cho hiệu năng tương đương Grok 4 nhưng dùng trung bình ít hơn 40% token, nhờ đó đạt cùng mức hiệu năng với chi phí thấp hơn nhiều
Ngoài ra, thông qua học tăng cường cho việc sử dụng công cụ, mô hình thể hiện hiệu năng cao ở các tác vụ như thực thi mã và duyệt web, đồng thời đứng hạng 1 trên LMArena Search Arena

Bước tiến của trí tuệ hiệu quả chi phí

Grok 4 Fast cho hiệu năng vượt Grok 3 Mini đồng thời cắt giảm đáng kể chi phí token
- Trung bình sử dụng ít hơn 40% 'Thinking Tokens' so với Grok 4 để đạt hiệu năng tương tự
- Ví dụ điểm benchmark (pass@1):
  - Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
  - So với các mô hình cạnh tranh (GPT-5, v.v.), kết quả ở mức tương đương hoặc tốt hơn
Trên nhiều benchmark suy luận như GPQA, AIME, HMMT, LiveCodeBench, mô hình cho kết quả tiệm cận Grok 4
Cùng với việc cải thiện 40% hiệu quả token, Grok 4 Fast cũng giảm mạnh mức giá trên mỗi token
Khi đạt cùng hiệu năng, chi phí giảm 98% so với Grok 4, thiết lập mức 'tỷ lệ giá-trí tuệ tốt nhất (SOTA Price-to-Intelligence Ratio)' trong số các mô hình được công khai
- Thành tích này cũng được xác nhận qua đánh giá bên ngoài từ tổ chức độc lập Artificial Analysis Intelligence Index

Khả năng dùng công cụ bản địa và tìm kiếm SOTA

Được huấn luyện bằng học tăng cường cho việc sử dụng công cụ (RL), mô hình có thể tự động thực thi mã hoặc duyệt web khi cần
Có khả năng tìm kiếm agentic, cho phép khám phá web và X theo thời gian thực, hỗ trợ tìm kiếm đa bước và xử lý cả media (hình ảnh, video)
Trên nhiều benchmark như BrowseComp, SimpleQA, X Bench Deepsearch(zh), mô hình đạt hiệu năng vượt Grok 4

Thành quả post-training trên miền tổng quát

Trên Search Arena của LMArena, Grok 4 Fast(menlo) đứng hạng 1 với Elo 1163, dẫn trước các mô hình cạnh tranh 17 điểm
Trên Text Arena, grok-4-fast (codename tahoe) đứng hạng 8, vượt trội rõ rệt so với các mô hình cùng phân khúc khác (hạng 18 trở xuống)
Trong các tác vụ tìm kiếm và văn bản thực tế, mô hình cho thấy hiệu quả vượt cả các mô hình lớn hơn

Mô hình hợp nhất Reasoning và Non-Reasoning

Các chế độ reasoning / non-reasoning vốn trước đây cần mô hình riêng nay được hợp nhất trong một kiến trúc duy nhất
- Chỉ với system prompt, có thể chuyển giữa chế độ reasoning (suy nghĩ chuyên sâu) và non-reasoning (trả lời nhanh)
- Giảm độ trễ end-to-end và chi phí token, phù hợp cho ứng dụng thời gian thực
Trong xAI API, nhà phát triển có thể tinh chỉnh chi tiết mức độ tốc độ/độ sâu

Triển khai và chính sách giá

Grok 4 Fast đã có thể sử dụng ngay và đang được miễn phí trong thời gian giới hạn trên OpenRouter và Vercel AI Gateway
Trên xAI API, mô hình cũng được cung cấp dưới hai phiên bản grok-4-fast-reasoning và grok-4-fast-non-reasoning, đồng thời hỗ trợ cửa sổ ngữ cảnh 2M token
Giá khởi điểm từ $0.20/1M token đầu vào và $0.50/1M token đầu ra, áp dụng gấp đôi mức phí khi vượt 128k token
Token đầu vào được cache có giá $0.05/1M, giúp tiết kiệm chi phí

Kế hoạch sắp tới

Dự kiến sẽ tiếp tục cải thiện mô hình bằng cách phản ánh phản hồi từ người dùng
Khả năng multimodal và tăng cường đặc tính agentic là mục tiêu trọng tâm của bản cập nhật tiếp theo
Có thể xem model card và thông tin chi tiết bổ sung tại Model card Grok 4 Fast (PDF)

2 bình luận

kuber 2025-09-21

Có vẻ vừa đắt hơn vừa chậm hơn gpt-oss, nên tôi khá tò mò vì sao lại có nhiều người dùng nó đến vậy..

GN⁺ 2025-09-21

Ý kiến trên Hacker News

Dù có trả tiền cho tôi thế nào đi nữa tôi cũng không muốn dùng sản phẩm của Musk, nhất là khi nó đóng vai trò lọc·biến đổi·tổng hợp thông tin; có thể nó hữu ích, nhưng tôi không tin tưởng và cũng không muốn giúp Musk tích lũy thêm tài sản
- Ngay cả khi không có ác cảm với bản thân Musk, tôi đã nhiều lần thấy ông ta trực tiếp can thiệp vào cách Grok hoạt động để nó đưa ra kết quả phù hợp với hệ tư tưởng của mình; nếu như vậy thì tôi nghĩ không thể dùng sản phẩm đó được, có thể có người đồng tình với Musk, nhưng giá trị của một sản phẩm AI nằm ở chỗ nó sử dụng dữ liệu và thuật toán đa dạng để tạo ra câu trả lời, chứ việc chỉ tái hiện ý kiến của một cá nhân thì vô nghĩa
- Tôi nghe nói trước khi Grok đưa ra câu trả lời thì nó sẽ tìm kiếm ý kiến của Musk trên Twitter, không rõ điều này áp dụng cho mọi phiên bản Grok hay chỉ bản nhúng trong Twitter
- Có quá nhiều lựa chọn thay thế nên tôi thấy hoàn toàn không có lý do gì để dùng Grok
- Đã có trường hợp Musk trực tiếp can thiệp vào Grok vì cho rằng nó không đưa ra tuyên truyền của Fox News liên quan đến vụ ám sát Kirk ví dụ 1, và chuyện như vậy đã xảy ra nhiều lần bài báo NYT. Grok là một công nghệ gây tranh cãi về tính tuyên truyền, nên việc thảo luận về nó như thể đó là một dịch vụ kỹ thuật thông thường ngay từ đầu đã không hợp lý
Tên model là "Fast" nhưng lại không công bố tốc độ xử lý token, tôi thắc mắc vì sao; không biết nó mang nghĩa khác ngoài tốc độ hay là mức biến động quá lớn
- Tôi nghĩ thực chất nó chỉ là “grok 4 mini”, nhưng vì gọi là ‘mini’ thì mọi người sẽ ít dùng nên họ đặt tên là ‘fast’, như vậy sẽ tạo được lý do để chọn nó hơn
- Theo OpenRouter thì hiện tại vào khoảng 160 token mỗi giây nguồn
- Có vẻ họ đang định vị nó là nhanh bằng cách tập trung vào ‘hiệu quả token’, kiểu dùng ít token hơn để đưa ra kết quả nhanh hơn
Grok 4 đang ở nhóm đầu trên bảng xếp hạng mở rộng NYT Connections liên kết
- Gần đây tôi từng nghĩ Sonoma sky Alpha, thứ đã nhận được phản hồi trên OpenRouter, có thể chính là model này; tôi dùng khá nhiều vì nó miễn phí, nhưng thấy còn kém hơn Grok 4 hiện tại nên cũng có thể không phải
Dạo này tôi hay dùng model grok-code-fast-1, nên hơi tiếc là sản phẩm mới lần này không nhắc đến nó; tôi hy vọng biết đâu đây là một phiên bản tốt hơn, vì dù grok-code-fast-1 có hơi kém Gemini 2.5 Pro một chút thì về tốc độ lặp vẫn là số một
- Dù là model hơi đơn giản, nhưng theo trải nghiệm của tôi thì dùng vẫn tốt hơn somnet
Tôi không hiểu vì sao nó vừa nhanh hơn mà lại đạt kết quả tốt hơn bản chậm hơn trên nhiều benchmark, không biết có phải chỉ học luyện đề benchmark liên tục hay không
- Không phải vượt trội ở mọi benchmark. Grok 4 Fast yếu hơn Grok 4 ở các lĩnh vực dựa nhiều vào tri thức thực tế như GPQA Diamond, HLE; trong các mảng này model lớn hơn (= chậm hơn) tốt hơn. Ngược lại, ở các benchmark nhấn mạnh suy luận hoặc sử dụng công cụ, nơi năng lực chuyển đổi token là trọng tâm, model nhỏ và nhanh vẫn có sức cạnh tranh. Có lẽ ngay từ dữ liệu huấn luyện họ đã điều chỉnh để thiên về một số tác vụ nhất định, và kết quả thực tế cũng có vẻ như họ chọn đúng những benchmark như vậy để quảng bá. Ngược lại, tôi nghĩ cũng có thể làm ra các ‘tài liệu quảng bá phản đối’ chỉ bằng cách chọn toàn benchmark về ghi nhớ sự kiện để nhấn mạnh hiệu năng thấp
- Về mặt kỹ thuật, có thể khác nhau ở nhiều thay đổi kiến trúc, nhiều dữ liệu hơn, RL hay thứ gì khác; gần đây xét về việc tận dụng RL thì họ đang vượt khá xa so với các model mở
- Thực ra đây chỉ là hai model có tên giống nhau mà thôi, chứ không phải quan hệ kiểu Grok 4 Fast là bản nhanh hơn của Grok 4; nó hoàn toàn khác, giống như quan hệ giữa gpt-4 và gpt-4o
- Khả năng cao Grok 4 Fast là phiên bản được tinh gọn từ model Grok 4 bằng cách cắt bớt những phần hầu như không dùng trong môi trường production thực tế, để nó nhẹ hơn và tập trung hơn; vì vậy cấu trúc logic thực chất vẫn giống nhau nhưng được tối ưu hiệu quả hơn cho mục đích cụ thể
Dạo này các model lớn đều đang ở quy mô tương tự nhau và được huấn luyện bằng dữ liệu na ná nhau, khác chủ yếu ở chính sách giá… có vẻ đặc trưng của grok là bỏ bớt filter và cơ chế bảo vệ, còn benchmark bản thân nó cũng có nhiều điểm flawed và dễ bị thao túng, chuyện này người trong ngành đều biết
Xét theo benchmark thì hiệu năng trên giá thành có vẻ tốt, tôi tò mò không biết trong thử nghiệm người dùng thực tế thì sẽ ra sao
- Nếu đây là sonoma-dusk từng được OpenRouter cung cấp ở dạng preview trước đây thì nó khá dùng được. Tôi đã thử nó bằng bài toán reverse engineering code, và tốc độ lẫn hiệu năng tương đương hoặc nhỉnh hơn gpt5-mini; nó trụ tốt tới khoảng 110k~130k token, còn từ mức đó trở lên thì có xu hướng vẫn khẳng định là đã hoàn thành ngay cả khi điều kiện chưa đủ (ví dụ: nói đã vượt qua xx trên 400 bài test, phần còn lại có thể làm sau)
Tất cả chúng ta đều muốn một model nhanh và chính xác, nên tôi tò mò liệu đây có thực sự là model đạt được cả ‘độ chính xác’ hay không; nếu thật sự rất chính xác thì tôi cũng sẵn sàng chờ thêm vài giây
- Cách duy nhất để đạt điều đó một cách chắc chắn là dùng công cụ
Liên kết tham khảo bảng so sánh model lớn
Cá nhân tôi dùng frontend tùy chỉnh, nên khác với Qwen3 coder, việc grok4 fast không có API thử nghiệm miễn phí khiến tôi thấy đáng tiếc; các công cụ có hợp tác với họ cũng không phải thứ tôi thường dùng
- Liên kết trải nghiệm miễn phí grok-4-fast