- Grok 4 của xAI đã giành vị trí mô hình AI số 1 trên các benchmark chính
- Trên AAI Index, Grok 4 đạt 73 điểm, vượt OpenAI o3 (70 điểm), Google Gemini 2.5 Pro (70 điểm), Anthropic Claude 4 Opus (64 điểm) và DeepSeek R1 0528 (68 điểm)
- Grok 4 cũng ghi điểm cao nhất ở các benchmark liên quan đến lập trình và toán học, lập kỷ lục mới trên GPQA Diamond (88%), Humanity’s Last Exam (24%) và nhiều bài đánh giá khác
- Giá giữ nguyên như Grok 3, với mức giá theo token tương đương Claude 4 Sonnet, nhưng nhỉnh hơn đôi chút so với Gemini 2.5 Pro hoặc o3
- Cung cấp các tính năng chính như cửa sổ ngữ cảnh 256k token, đầu vào văn bản/hình ảnh, gọi hàm và hỗ trợ đầu ra có cấu trúc
Grok 4 trở thành mô hình dẫn đầu của xAI
- Với 73 điểm trên Artificial Analysis Intelligence Index, Grok 4 đứng số 1 trên các benchmark chính
- Đây là lần đầu tiên xAI vươn lên dẫn đầu AI với số điểm cao hơn OpenAI o3 (70 điểm), Google Gemini 2.5 Pro (70 điểm), Anthropic Claude 4 Opus (64 điểm) và DeepSeek R1 0528 (68 điểm)
- Grok 3 trước đây cũng có sức cạnh tranh, nhưng Grok 4 là mô hình đầu tiên giúp xAI chiếm vị trí dẫn đầu
Kết quả benchmark và đánh giá
- Đều đứng số 1 ở chỉ số lập trình (LiveCodeBench & SciCode) và chỉ số toán học (AIME24 & MATH-500)
- GPQA Diamond 88%, vượt kỷ lục trước đó của Gemini 2.5 Pro (84%)
- Humanity’s Last Exam 24%, cao hơn kỷ lục trước đó của Gemini 2.5 Pro (21%)
- MMLU-Pro 87%, AIME 2024 94% và đồng hạng điểm cao nhất
- Tốc độ đầu ra 75 token/giây, chậm hơn o3 (188), Gemini 2.5 Pro (142), Claude 4 Sonnet Thinking (85), nhưng nhanh hơn Claude 4 Opus Thinking (66)
Thông tin đáng chú ý khác
- Cung cấp cửa sổ ngữ cảnh 256k token (so với Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, nên vẫn thuộc nhóm cao)
- Hỗ trợ đầu vào văn bản và hình ảnh
- Hỗ trợ gọi hàm và đầu ra có cấu trúc
- Chính sách giá: giống Grok 3, ở mức $3/$15 cho mỗi 1M token đầu vào/đầu ra, và $0.75 cho mỗi 1M token đầu vào được cache
- Tương đương Claude 4 Sonnet, nhưng đắt hơn đôi chút so với Gemini 2.5 Pro và o3
- Grok 4 dự kiến sẽ được cung cấp qua xAI API, chatbot Grok (X/Twitter), Microsoft Azure AI Foundry và các nền tảng khác
Tóm tắt
- Grok 4 là mô hình AI đầu tiên giúp xAI vươn lên vị trí dẫn đầu, vượt các đối thủ chính trên benchmark và các chỉ số định lượng
- Với năng lực suy luận mạnh, nhiều hình thức đầu vào/đầu ra và hỗ trợ ngữ cảnh lớn, mô hình này cho thấy vị thế dẫn dắt trong ngành
- Chi tiết triển khai thực tế giữa mô hình dùng cho X/Twitter và mô hình dùng qua API có thể khác nhau
5 bình luận
Tạm thời thì đến lúc được mở miễn phí tôi vẫn không tin. Grok thậm chí còn giá 30 đô nên ngại đăng ký...
Có lẽ có thể xem đây là hiệu năng của một mô hình có ít quá trình alignment hơn, nhưng chắc rồi cũng sẽ bị chỉnh lại và hiệu năng giảm xuống chăng.
Khi dùng Gemini CLI, nhờ ngữ cảnh 1M nên trải nghiệm người dùng khác biệt hẳn.
Việc có thể đưa nguyên cả codebase vào ngữ cảnh đúng là một bước ngoặt.
Tôi tò mò không biết kích thước ngữ cảnh ảnh hưởng đến việc sử dụng mô hình đến mức nào, nhưng việc vẫn cứ nói mô hình nào đứng số 1 chỉ bằng benchmark và vẻ bề ngoài thì khác gì với việc làm marketing lan truyền cho những người không biết chứ
Ý kiến trên Hacker News