5 điểm bởi GN⁺ 2025-07-11 | 5 bình luận | Chia sẻ qua WhatsApp
  • Grok 4 của xAI đã giành vị trí mô hình AI số 1 trên các benchmark chính
  • Trên AAI Index, Grok 4 đạt 73 điểm, vượt OpenAI o3 (70 điểm), Google Gemini 2.5 Pro (70 điểm), Anthropic Claude 4 Opus (64 điểm) và DeepSeek R1 0528 (68 điểm)
  • Grok 4 cũng ghi điểm cao nhất ở các benchmark liên quan đến lập trình và toán học, lập kỷ lục mới trên GPQA Diamond (88%), Humanity’s Last Exam (24%) và nhiều bài đánh giá khác
  • Giá giữ nguyên như Grok 3, với mức giá theo token tương đương Claude 4 Sonnet, nhưng nhỉnh hơn đôi chút so với Gemini 2.5 Pro hoặc o3
  • Cung cấp các tính năng chính như cửa sổ ngữ cảnh 256k token, đầu vào văn bản/hình ảnh, gọi hàm và hỗ trợ đầu ra có cấu trúc

Grok 4 trở thành mô hình dẫn đầu của xAI

  • Với 73 điểm trên Artificial Analysis Intelligence Index, Grok 4 đứng số 1 trên các benchmark chính
  • Đây là lần đầu tiên xAI vươn lên dẫn đầu AI với số điểm cao hơn OpenAI o3 (70 điểm), Google Gemini 2.5 Pro (70 điểm), Anthropic Claude 4 Opus (64 điểm) và DeepSeek R1 0528 (68 điểm)
  • Grok 3 trước đây cũng có sức cạnh tranh, nhưng Grok 4 là mô hình đầu tiên giúp xAI chiếm vị trí dẫn đầu

Kết quả benchmark và đánh giá

  • Đều đứng số 1 ở chỉ số lập trình (LiveCodeBench & SciCode) và chỉ số toán học (AIME24 & MATH-500)
  • GPQA Diamond 88%, vượt kỷ lục trước đó của Gemini 2.5 Pro (84%)
  • Humanity’s Last Exam 24%, cao hơn kỷ lục trước đó của Gemini 2.5 Pro (21%)
  • MMLU-Pro 87%, AIME 2024 94% và đồng hạng điểm cao nhất
  • Tốc độ đầu ra 75 token/giây, chậm hơn o3 (188), Gemini 2.5 Pro (142), Claude 4 Sonnet Thinking (85), nhưng nhanh hơn Claude 4 Opus Thinking (66)

Thông tin đáng chú ý khác

  • Cung cấp cửa sổ ngữ cảnh 256k token (so với Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k, nên vẫn thuộc nhóm cao)
  • Hỗ trợ đầu vào văn bản và hình ảnh
  • Hỗ trợ gọi hàm và đầu ra có cấu trúc
  • Chính sách giá: giống Grok 3, ở mức $3/$15 cho mỗi 1M token đầu vào/đầu ra, và $0.75 cho mỗi 1M token đầu vào được cache
    • Tương đương Claude 4 Sonnet, nhưng đắt hơn đôi chút so với Gemini 2.5 Pro và o3
  • Grok 4 dự kiến sẽ được cung cấp qua xAI API, chatbot Grok (X/Twitter), Microsoft Azure AI Foundry và các nền tảng khác

Tóm tắt

  • Grok 4 là mô hình AI đầu tiên giúp xAI vươn lên vị trí dẫn đầu, vượt các đối thủ chính trên benchmark và các chỉ số định lượng
  • Với năng lực suy luận mạnh, nhiều hình thức đầu vào/đầu ra và hỗ trợ ngữ cảnh lớn, mô hình này cho thấy vị thế dẫn dắt trong ngành
  • Chi tiết triển khai thực tế giữa mô hình dùng cho X/Twitter và mô hình dùng qua API có thể khác nhau

5 bình luận

 
slowandsnow 2025-07-11

Tạm thời thì đến lúc được mở miễn phí tôi vẫn không tin. Grok thậm chí còn giá 30 đô nên ngại đăng ký...

 
paruaa 2025-07-11

Có lẽ có thể xem đây là hiệu năng của một mô hình có ít quá trình alignment hơn, nhưng chắc rồi cũng sẽ bị chỉnh lại và hiệu năng giảm xuống chăng.

 
click 2025-07-11

Khi dùng Gemini CLI, nhờ ngữ cảnh 1M nên trải nghiệm người dùng khác biệt hẳn.
Việc có thể đưa nguyên cả codebase vào ngữ cảnh đúng là một bước ngoặt.

 
koolgu 2025-07-11

Tôi tò mò không biết kích thước ngữ cảnh ảnh hưởng đến việc sử dụng mô hình đến mức nào, nhưng việc vẫn cứ nói mô hình nào đứng số 1 chỉ bằng benchmark và vẻ bề ngoài thì khác gì với việc làm marketing lan truyền cho những người không biết chứ

 
GN⁺ 2025-07-11
Ý kiến trên Hacker News
  • Tôi không thể tưởng tượng nổi ai lại bỏ tiền ra dùng Grok, nhất là khi dạo này nó có vẻ hoàn toàn có vấn đề, định giá của xAI đúng là chỉ là ảo ảnh
    • Tôi đang trả tiền để dùng Grok, đã dùng Grok thay cho Google mấy tháng nay, nó thực sự hữu ích vì có thể truy cập đồ thị X và có rất nhiều thông tin mới nhất, giá mà cũng dùng được trong Cline hay Cursor thì tốt
    • Không biết mọi người có nhận ra là thứ gây rắc rối không phải mô hình Grok mà là bot @grok trên X không, bản API của Grok không tự nhiên vô cớ đi bắt chước Hitler đâu (trừ khi bạn trực tiếp yêu cầu)
  • Trên ARC-AGI2, nó đạt hiệu năng gấp 4 lần o3 và gấp 2 lần opus 4… các benchmark độc lập khác cũng cho kết quả rất mạnh, cái vòng lặp ngắn ngủi mà mỗi mô hình đều tự nhận là "tốt nhất thế giới" trong khoảng một tháng vẫn đang tiếp diễn, với mức giá này thì người tiêu dùng được lợi, các bộ dữ liệu huấn luyện của mô hình mở cũng đang trở nên đa dạng hơn nên là đôi bên cùng có lợi, thật đáng tiếc khi phải nhìn những lời biện hộ nhức óc bị xoay vòng chỉ vì các cuộc đấu khẩu cảm tính về người nổi tiếng, rất nhiều người cần cai nghiện truyền thông, trước đây người ta gọi LLM là "con vẹt xác suất", nhưng giờ nhìn thread này và Reddit thì ngược lại con người mới đang lặp lại như vẹt những điều ngu ngốc và đầy thù ghét, cần phải khá hơn nữa
  • Tôi tự hỏi liệu từ giờ trong code của mình có còn nhận được các phản hồi liên quan đến Hitler hay không, sửa: giờ tôi thấy mình thật ngốc vì không nhận ra đây lại là một nước đi marketing "thiên tài" nữa