- Grok 4 Fast do xAI công bố là mô hình suy luận thế hệ mới, được xây dựng trên thành quả huấn luyện của Grok 4 hiện có, với mục tiêu tối đa hóa hiệu quả chi phí và tốc độ
- Mô hình này có cửa sổ ngữ cảnh 2M token, khả năng tìm kiếm web và X, cùng kiến trúc hợp nhất reasoning / non-reasoning, phù hợp cho các tình huống sử dụng thời gian thực
- Trong benchmark, mô hình cho hiệu năng tương đương Grok 4 nhưng dùng trung bình ít hơn 40% token, nhờ đó đạt cùng mức hiệu năng với chi phí thấp hơn nhiều
- Ngoài ra, thông qua học tăng cường cho việc sử dụng công cụ, mô hình thể hiện hiệu năng cao ở các tác vụ như thực thi mã và duyệt web, đồng thời đứng hạng 1 trên LMArena Search Arena
Bước tiến của trí tuệ hiệu quả chi phí
- Grok 4 Fast cho hiệu năng vượt Grok 3 Mini đồng thời cắt giảm đáng kể chi phí token
- Trung bình sử dụng ít hơn 40% 'Thinking Tokens' so với Grok 4 để đạt hiệu năng tương tự
- Ví dụ điểm benchmark (pass@1):
- Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
- So với các mô hình cạnh tranh (GPT-5, v.v.), kết quả ở mức tương đương hoặc tốt hơn
- Trên nhiều benchmark suy luận như GPQA, AIME, HMMT, LiveCodeBench, mô hình cho kết quả tiệm cận Grok 4
- Cùng với việc cải thiện 40% hiệu quả token, Grok 4 Fast cũng giảm mạnh mức giá trên mỗi token
- Khi đạt cùng hiệu năng, chi phí giảm 98% so với Grok 4, thiết lập mức 'tỷ lệ giá-trí tuệ tốt nhất (SOTA Price-to-Intelligence Ratio)' trong số các mô hình được công khai
- Thành tích này cũng được xác nhận qua đánh giá bên ngoài từ tổ chức độc lập Artificial Analysis Intelligence Index
Khả năng dùng công cụ bản địa và tìm kiếm SOTA
- Được huấn luyện bằng học tăng cường cho việc sử dụng công cụ (RL), mô hình có thể tự động thực thi mã hoặc duyệt web khi cần
- Có khả năng tìm kiếm agentic, cho phép khám phá web và X theo thời gian thực, hỗ trợ tìm kiếm đa bước và xử lý cả media (hình ảnh, video)
- Trên nhiều benchmark như BrowseComp, SimpleQA, X Bench Deepsearch(zh), mô hình đạt hiệu năng vượt Grok 4
Thành quả post-training trên miền tổng quát
- Trên Search Arena của LMArena, Grok 4 Fast(
menlo) đứng hạng 1 với Elo 1163, dẫn trước các mô hình cạnh tranh 17 điểm
- Trên Text Arena,
grok-4-fast (codename tahoe) đứng hạng 8, vượt trội rõ rệt so với các mô hình cùng phân khúc khác (hạng 18 trở xuống)
- Trong các tác vụ tìm kiếm và văn bản thực tế, mô hình cho thấy hiệu quả vượt cả các mô hình lớn hơn
Mô hình hợp nhất Reasoning và Non-Reasoning
- Các chế độ reasoning / non-reasoning vốn trước đây cần mô hình riêng nay được hợp nhất trong một kiến trúc duy nhất
- Chỉ với system prompt, có thể chuyển giữa chế độ reasoning (suy nghĩ chuyên sâu) và non-reasoning (trả lời nhanh)
- Giảm độ trễ end-to-end và chi phí token, phù hợp cho ứng dụng thời gian thực
- Trong xAI API, nhà phát triển có thể tinh chỉnh chi tiết mức độ tốc độ/độ sâu
Triển khai và chính sách giá
- Grok 4 Fast đã có thể sử dụng ngay và đang được miễn phí trong thời gian giới hạn trên OpenRouter và Vercel AI Gateway
- Trên xAI API, mô hình cũng được cung cấp dưới hai phiên bản
grok-4-fast-reasoning và grok-4-fast-non-reasoning, đồng thời hỗ trợ cửa sổ ngữ cảnh 2M token
- Giá khởi điểm từ $0.20/1M token đầu vào và $0.50/1M token đầu ra, áp dụng gấp đôi mức phí khi vượt 128k token
- Token đầu vào được cache có giá $0.05/1M, giúp tiết kiệm chi phí
Kế hoạch sắp tới
- Dự kiến sẽ tiếp tục cải thiện mô hình bằng cách phản ánh phản hồi từ người dùng
- Khả năng multimodal và tăng cường đặc tính agentic là mục tiêu trọng tâm của bản cập nhật tiếp theo
- Có thể xem model card và thông tin chi tiết bổ sung tại Model card Grok 4 Fast (PDF)
2 bình luận
Có vẻ vừa đắt hơn vừa chậm hơn
gpt-oss, nên tôi khá tò mò vì sao lại có nhiều người dùng nó đến vậy..Ý kiến trên Hacker News