Ra mắt Grok 4

(twitter.com/xai)

7 điểm bởi GN⁺ 2025-07-11 | 6 bình luận | Chia sẻ qua WhatsApp

Grok 4 là mô hình AI mới nhất được xAI ra mắt sau khoảng 2 năm, hiện thực hóa trí tuệ và khả năng suy luận vượt trội hơn nghiên cứu sinh ở mọi lĩnh vực
Quy mô huấn luyện và tài nguyên tính toán đã tăng hơn 100 lần, đồng thời phát triển xoay quanh reinforcement learning (RL), qua đó chứng minh năng lực giải quyết vấn đề vượt mức con người
Đạt điểm ARC-AGI 15.9%, ghi nhận thành tích nổi bật trong đánh giá suy luận trừu tượng và trí tuệ tổng quát ở nhóm AI tốt nhất hiện nay
Trên nhiều benchmark như Humanity’s Last Exam (HLE), mô hình cho kết quả đột phá là 26.9% khi không dùng công cụ, 41~50.7% khi dùng công cụ
Với native voice mode, mô hình mang lại tương tác gần với con người như hội thoại thời gian thực, biểu đạt cảm xúc và phản hồi độ trễ thấp

Grok 4

xAI do Elon Musk sáng lập đã công bố Grok 4 sau khoảng 2 năm và nhấn mạnh đây là “mô hình AI tốt nhất thế giới”
Mô hình đạt điểm tuyệt đối trong các kỳ thi chuẩn hóa như SAT, GRE, đồng thời cho thấy hiệu năng chưa từng có với các bài toán ở trình độ cao học và tiến sĩ trên mọi lĩnh vực học thuật
> "Về các câu hỏi học thuật, Grok 4 thông minh hơn nghiên cứu sinh ở mọi môn học"
Grok 2 là mô hình khái niệm, Grok 3 tập trung vào pretraining dựa trên nhiều nguồn dữ liệu, còn Grok 4 được huấn luyện với tài nguyên tính toán và dữ liệu nhiều hơn 100 lần so với Grok 2, và 10 lần so với Grok 3
Mô hình được huấn luyện trên siêu máy tính Colossus (200.000 GPU), tập trung vào pretraining và RL
- Tập trung vào reinforcement learning (RL), áp dụng cấu trúc tự sửa lỗi trong đó mô hình nhận phản hồi trong quá trình giải quyết vấn đề và dần cải thiện hiệu năng
- Nhấn mạnh rằng mô hình đã đạt bước tiến lớn trong thời gian ngắn dựa trên năng lực giải quyết vấn đề logic và tư duy “first principles”

2 phiên bản mô hình

Gồm mô hình cơ bản Grok 4 và phiên bản tăng cường hiệu năng Grok 4 Heavy
Grok 4 Heavy hiện thực hóa trí tuệ tập thể theo cách tiếp cận multi-agent, trong đó nhiều agent cùng giải bài toán đồng thời rồi so sánh kết quả để tìm ra đáp án tối ưu
- Có thể sử dụng qua gói đăng ký SuperGrok Heavy (300 USD/tháng)

Bước đột phá về chấm điểm AGI

Grok 4 ghi nhận 15.9% trong bài test ARC-AGI, thuộc nhóm điểm số cao nhất ngành
ARC-AGI đánh giá trí tuệ tổng quát và năng lực giải quyết vấn đề trừu tượng của mô hình, tập trung đo khả năng nhận diện mẫu thị giác và áp dụng vào tình huống mới

Thành tích tại Humanity's Last Exam (HLE)

Humanity’s Last Exam (HLE), được giới thiệu vào tháng 1/2025, là benchmark siêu khó gồm hơn 100 lĩnh vực và 2.500 câu hỏi như toán, sinh học, khoa học xã hội, vật lý, AI, kỹ thuật, hóa học
Thành tích của Grok 4: “ở mức mà con người thực tế hay AI hiện có không thể tiếp cận”
- Không dùng công cụ: 26.9%
- Dùng công cụ (Grok 4 Heavy): 41%
- Áp dụng thêm tính toán khi test (32x): đạt tối đa 50.7%
Không dùng công cụ nghĩa là chỉ giải bài bằng năng lực ngôn ngữ/suy luận tích hợp; dùng công cụ là cách kết hợp với hệ thống multi-agent như chạy code, tìm kiếm web, sử dụng dữ liệu bên ngoài
Training compute sử dụng siêu máy tính Colossus với 200.000 GPU để huấn luyện tri thức mô hình và khả năng dùng công cụ; test-time compute là chạy song song nhiều mô hình trong lúc giải bài và bao gồm cả quá trình kiểm chứng kết quả

> “Grok 4 đạt trình độ từ PhD trở lên ở mọi lĩnh vực”
> "Sắp tới thậm chí có thể kỳ vọng vào khám phá công nghệ mới/vật lý mới"

Điểm benchmark AI chính

AIME: năng lực giải các bài toán toán học phức tạp ở trình độ trung học phổ thông
GPQA: đánh giá suy luận khoa học ở trình độ cao học như vật lý
LiveCodeBench: đo năng lực lập trình dựa trên các thử thách Python
MMLU-Pro: khả năng giải các câu hỏi trắc nghiệm khó thuộc nhiều lĩnh vực chuyên môn
LOFT: đánh giá năng lực trích xuất thông tin cần thiết cho các truy vấn phức tạp từ văn bản dài

Trường hợp ứng dụng thực tiễn và triển khai ngoài đời thực

Trong mô phỏng kinh doanh (VendingBench), Grok 4 cho thấy hiệu năng và độ nhất quán cao hơn gấp đôi so với các mô hình trước, chứng minh năng lực thực thi chiến lược dài hạn
Tại các phòng thí nghiệm khoa học sự sống và nơi khác, mô hình được đưa vào phân tích log thí nghiệm quy mô lớn, hình thành giả thuyết và đọc ảnh y khoa, qua đó chứng minh hiệu quả công việc thực tế
Trong phát triển game, mô hình hỗ trợ tự động thu thập game asset và tạo code, giúp chỉ một nhà phát triển cũng có thể nhanh chóng hoàn thiện game 3D

Đổi mới của native voice mode

Grok 4 hỗ trợ hội thoại giọng nói thời gian thực, ngắt lời tự nhiên giữa chừng, hiểu/tái tạo ngữ điệu cảm xúc và phản hồi siêu độ trễ thấp, mang lại tương tác kiểu con người vượt qua các hệ thống TTS hiện có
Bổ sung nhiều kiểu giọng nói khác nhau (kiểu Anh-Anh, kiểu trailer, v.v.) và qua demo trực tiếp đã trình diễn sự mượt mà, tốc độ và tính ứng dụng đa dạng của hội thoại thời gian thực

Mở rộng API và hệ sinh thái

Grok 4 cũng được công bố qua API, cho phép mọi người dùng vào benchmark test và ứng dụng kinh doanh
Các đối tác trong nhiều lĩnh vực như tài chính, khoa học, giải trí đã bắt đầu áp dụng, làm tăng tác động ngoài đời thực
Cung cấp 256k context length, tăng cường khả năng xử lý tác vụ dài và phức hợp

Hạn chế và hướng phát triển tiếp theo

Ở thời điểm hiện tại, điểm yếu lớn nhất của Grok 4 là còn thiếu năng lực hiểu/tạo nội dung đa phương thức như hình ảnh và video
Với foundation model v7 sắp hoàn tất huấn luyện và RL được tăng cường thêm, mô hình dự kiến sẽ được cải thiện toàn diện về vision, video, audio
xAI cũng báo trước việc phát triển và ra mắt mô hình tạo video (sử dụng hơn 100.000 GPU GB200)

Lộ trình sắp tới của xAI

Tháng 8/2025: dự kiến ra mắt mô hình coding
Tháng 9/2025: công bố tác nhân multimodal
Tháng 10/2025: dự kiến giới thiệu mô hình tạo video
Công cụ và hiệu năng mô hình sẽ tiếp tục được tăng cường

Kết luận và hàm ý

Grok 4 chứng minh mình thực sự cạnh tranh ngang ngửa hoặc vượt lên so với các AI tốt nhất hiện nay ở khả năng suy luận và giải quyết vấn đề học thuật
Với trí tuệ và năng lực suy luận chưa từng có, tương tác giọng nói thời gian thực, khả năng dùng công cụ và cấu trúc multi-agent, đây được xem là bước ngoặt thực chất hướng tới AGI thế hệ tiếp theo
Cùng với khả năng mở rộng sang công việc thực tế/kinh doanh/game/nghiên cứu/giải trí, xAI được kỳ vọng sẽ định vị mình như công ty AGI phát triển nhanh nhất
Chu kỳ phát triển nhanh và các bước đi quyết liệt của xAI cho thấy cạnh tranh trong ngành AI đang tiếp tục tăng tốc

6 bình luận

xguru 2025-07-13

Grok 4 giờ đã là mô hình AI hàng đầu
Đánh giá Grok 4 của Simon Willison
Grok tìm kiếm Elon Musk nói gì trên X về vấn đề Israel-Palestine

xguru 2025-07-11

Chắc phải dùng thực tế mới biết được, nhưng với 200.000 GPU và nguồn nhân lực như vậy thì đúng là có thể tăng trưởng mạnh tay đến thế. Khi Colossus lên tới 1 triệu GPU thì không biết sẽ còn cải thiện đến mức nào nữa.

Tính H100 là 50 triệu won một chiếc thì riêng giá GPU đã là 50 nghìn tỷ won. Còn phải xây trung tâm dữ liệu, lại còn cần điện ở khu vực xung quanh nên nghe nói phải cộng thêm khoảng 20 nghìn tỷ won nữa, thành ra là 70 nghìn tỷ won. Có vẻ AI ngày càng trở thành cuộc chiến về tiền bạc.

jujumilk3 2025-07-11

Sao tự nhiên lại lôi cả nghiên cứu sinh ra để chửi vậy trời haha

sknah 2025-07-11

kkk, nghiên cứu sinh bị ăn đòn bất ngờ nên ngơ ngác luôn ..

lcanon 2025-07-11

Tôi hiểu Grok 4 rất ấn tượng, nhưng những câu kiểu rất đặc trưng của khối Anh ngữ như "sớm thôi còn có thể kỳ vọng nó khám phá ra cả công nghệ mới/vật lý mới" cũng khá thú vị. Nếu sớm chứng minh/bác bỏ được giả thuyết Riemann thì chắc chẳng cần thêm benchmark gì nữa nhỉ?

GN⁺ 2025-07-11

Ý kiến Hacker News

Mô hình "Heavy" có giá 300 USD/tháng, cảm giác giá cứ tăng mãi, trước đây dường như người ta từng hứa là giá sẽ tiếp tục giảm, có lẽ hiện tượng này xảy ra vì nhiều công ty đang thiếu GPU, còn các bên như Google thì có lẽ không gặp vấn đề đó, hiện tại Gemini 2.5 Pro đã được dùng miễn phí trên AI studio, thậm chí đặt tới 32k cũng hoàn toàn không bị tính phí, nên cũng hy vọng biết đâu Gemini 3.0 sau này cũng sẽ được mở miễn phí
- Có vẻ chưa từng có ai hứa rằng các mô hình hiệu năng cao sẽ luôn rẻ, nếu xét theo cùng mức hiệu năng và số token thì giá vẫn đang giảm, giống như định luật Moore, chip ngày càng phức tạp hơn nhưng hiệu năng trên mỗi đơn vị lại rẻ hơn
- Nguyên lý này giống như Ferrari đắt hơn Model T, hay những máy tính đắt nhất hiện nay đắt hơn rất nhiều so với chiếc PC đầu tiên, thứ thực sự giảm giá là phân khúc entry-level hoặc các dòng giữ nguyên cùng mức hiệu năng, còn việc toàn bộ dải giá ngày càng mở rộng là hiện tượng tự nhiên, tôi xem đó là dấu hiệu cho thấy ngành này đang trưởng thành, chỉ khác lần này là phân khúc entry-level từng bị VC funding đẩy xuống mức 0 hoặc rất thấp một cách nhân tạo
- Cũng cần nhìn nhận rằng ngay cả Gemini cũng đang tiếp tục tăng giá, liên kết liên quan
- Đây là hiện tượng chi phí tăng theo thời gian suy luận (inference time), rốt cuộc khoảng cách giữa "người có" và "người không có" trong chi phí tiếp cận AI có lẽ sẽ ngày càng lớn, phần lớn thế giới không thể gánh nổi mức phí thuê bao hàng trăm USD
- O3 gần đây đã giảm giá 80%, Grok 4 mới ra mắt không lâu, hiệu năng tốt mà giá cũng khá hợp lý, nếu không phải bản heavy thì đơn giá token cũng giống Grok 3, còn Google có vẻ đang chấp nhận đốt chi phí để tăng hiện diện, nên tôi không thực sự hiểu lời phàn nàn trong bài gốc
Có vẻ lần này đúng là SOTA (State of the Art, mô hình tốt nhất hiện tại) mới, điểm số cao hơn rõ rệt so với o3, Gemini, Claude ở Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1, 2..., và trong vài tuần tới còn dự kiến ra mắt cả mô hình coding chuyên biệt, lưu ý là hôm nay họ chưa nói nhiều về hiệu năng coding
- Đồng ý, hôm nay tôi có cảm giác suy luận hơi bất an trong phần mô phỏng World Series, nó lấy các con số từ Polymarket rồi trả lời như thể đó là dữ liệu riêng của mình, tất nhiên có thể tôi nhầm vì chưa xem kỹ, nhưng những trường hợp như vậy lại khiến tôi thấy rất cần những người có góc nhìn hoài nghi trong đội ngũ an toàn của các mô hình tiên phong, dù vậy đây vẫn là bước tiến cực lớn, nếu benchmark không bị nhiễm bẩn thì có lẽ nó sẽ bùng nổ như một daily driver, về coding thì điểm tiếc duy nhất là chỉ có context 256k, nhưng tôi hy vọng ở v7 sẽ có context dài hơn — nhất là cho video — dù sao tôi cũng rất muốn dùng thử sớm
- Tôi muốn mô hình coding đó được đưa vào các coding agent, hiện tại tôi không tìm thấy nó ở đâu cả
- Việc kiểm duyệt mô hình làm điểm số giảm mạnh là điều đã được chứng minh từ lâu, ví dụ như phải chặn hướng dẫn chế tạo bom, nhưng Grok 3 vẫn liên tục thể hiện lập trường thiên tả dù được tiếp cận cả những dữ liệu tệ nhất (xét bối cảnh nhà tài trợ)
- Dù có không thiện cảm với Elon Musk thì việc Grok bắt kịp nhóm big 3 như Google, OpenAI, Anthropic vẫn thực sự đáng kinh ngạc, giờ gần như đã ở cùng đẳng cấp
Tôi vừa thử Grok 4 và nó quá tốt, nó tạo một lần luôn 1000 dòng mã dựng EC2 instance bằng Java CDK, bao gồm cả VPC và Security Groups mà không có lấy một lỗi cú pháp, đặc biệt ở phần tạo userData (lệnh #!/bin/bash) nó còn wget đúng artifact phần mềm mới nhất từ GitHub bằng địa chỉ chính xác, thực sự quá ấn tượng
- Nếu có thể chia sẻ kết quả thì rất mong được xem, nhiều mã như vậy mà ra một lần không lỗi thì đúng là đáng kinh ngạc, tôi cũng tò mò không biết grok có chạy cả tool (linter, chạy sandbox, web search, v.v.) cho các truy vấn kiểu này không
- Với mã dùng một lần thì rất tuyệt, nhưng để thành mã có thể bảo trì, đáp ứng quản lý source, cộng tác, tuân thủ SDLC chuẩn, tính bất biến và quản lý lịch sử thay đổi trạng thái thì vẫn còn rất xa, nếu một intern viết mã triển khai EC2 như vậy thì có lẽ tôi sẽ phải nói chuyện rất lâu về từng quyết định
- Tôi tò mò vì sao lại dùng Java thay vì typescript cho CDK, hay là muốn thống nhất mọi môi trường về một ngôn ngữ?
Mánh chính của Grok Heavy là chạy nhiều agent song song rồi so sánh kết quả, xét tổng thể thì benchmark rất ấn tượng, nó đắt và chậm là điều khó tránh nhưng là hướng đi hợp logic cho thiết kế agent thế hệ tiếp theo, tôi thật sự muốn dùng thử, và nhân tiện thì API cũng đã mở, có vẻ xAI đúng là đã làm được gì đó
- Tôi hiểu cách nó hoạt động, nhưng vẫn thấy đâu đó hơi giống một "hack", bản thân LLM dường như không còn tiến bộ rõ rệt nữa mà chỉ đang mở rộng bề ngoài theo chiều sâu, chiều dài, chiều rộng..., cuối cùng tăng trưởng bằng cách gắn thêm công cụ hay logic "phi AI" ở xung quanh, giống như hồi lời giải cho mạng nơ-ron thô sơ đơn giản là chờ sức mạnh phần cứng tăng theo cấp số nhân, nên cũng có thể đây chính là lời giải theo hướng đó
- Đắt và chậm thật, nhưng trên thực tế để huấn luyện một mô hình SOTA thế hệ sau thì kiểu gì cũng phải dùng cách này cùng với các dữ liệu tổng hợp tốt tạo ra từ rejection sampling chẳng hạn, thu của người dùng 300 USD để mang lại trải nghiệm như vậy nghe cũng là một thỏa thuận khá hợp lý
- Nó giống llm-consortium nhưng khác ở chỗ thiếu đa dạng mô hình, có thể tham khảo tweet của karpathy và mã nguồn mở llm-consortium
- Cá nhân tôi thì hy vọng kỹ thuật này sẽ được triển khai ở nơi nào đó khác, chứ không phải một "công ty có vấn đề", tôi vẫn muốn giữ những nguyên tắc của riêng mình
- Tôi nghĩ có lẽ o3 pro cũng hoạt động theo kiểu như vậy
Nếu không có thời gian xem video ra mắt thì tôi đã làm sẵn bản cắt clip, kết luận là nó thực sự rất ghê gớm và cuộc đua AI ngày càng khốc liệt hơn, Xem Short Clips
Tôi đã dùng Grok 4 để xử lý vấn đề hành vi không nhất quán khi chạy lldb từ python, có sự khác biệt giữa Docker và môi trường Linux local của tôi, nguyên nhân là address sanitizer hoạt động khác nhau tùy môi trường, O3 không tìm ra được chỗ này nhưng Grok 4 chỉ ra rất chuẩn nên tôi rất ấn tượng
"Grok 4 (Thinking)" đạt 15.9% trên ARC-AGI-2, gần như tăng gấp đôi SOTA thương mại trước đó, đồng thời lập luôn kỷ lục cao nhất hiện tại của cuộc thi Kaggle, thông tin chi tiết
Rất ấn tượng thật, nhưng tôi vẫn rất nghi ngờ việc các công ty có dễ dàng chọn một mô hình được post-training theo thiên hướng cá nhân của Elon làm API provider hay không, về mặt kỹ thuật thì xuất sắc nhưng về kinh doanh có vẻ có giới hạn
Tôi không dùng API của Grok, nhưng nếu dùng cho deep research thì nó luôn thuộc nhóm tốt nhất, còn Grok 4 thì có vẻ càng làm tiềm năng đó lớn hơn
- Tích hợp Twitter của Grok là trường hợp sử dụng thực tế tốt nhất của nó, có thể hỏi ngay trong tweet về ngữ cảnh hay nghĩa của thuật ngữ theo thời gian thực nên rất hữu ích
- Với tôi thì OpenAI vẫn rõ ràng tốt hơn mọi đối thủ khác (dù cũng khó gọi là tốt hẳn), nhưng đúng là Grok rất mạnh ở cập nhật thời gian thực hay các câu hỏi hỗ trợ IT
- Tôi muốn nghe cụ thể hơn một chút về ý nghĩa của <deep research>
Tôi tò mò không biết có ai đã tích hợp với Grok chưa, tôi đã tích hợp rất nhiều LLM nhưng chưa từng thấy trường hợp nào thực sự dùng Grok, nếu không vượt qua được điều này thì sẽ chẳng ai tin mô hình đó, doanh nghiệp sẽ không dùng cho đến khi nó chứng minh được năng lực thực sự, nhìn chung nó cũng không có dáng dấp của một công ty theo kiểu doanh nghiệp
- Grok 3 đã có mặt trên Azure AI Foundry, họ cũng công bố tích hợp với Telegram nhưng thực ra là phía Grok trả cho Telegram 300 triệu USD, link giới thiệu Grok 3 và mini trên Azure Foundry, bài báo BBC, dù sao thì tôi vẫn cho rằng chọn Grok là một rủi ro danh tiếng nghiêm trọng
- Tôi còn tò mò hơn về chuyện Grok tuyển người từ đâu và bằng cách nào, giờ trong ngành này tiền nhiều, phòng lab tốt cũng nhiều, nên có vẻ không có một hệ tư tưởng hay niềm tin đủ mạnh thì khó mà quyết định nhảy việc, tôi nghi ngờ không biết có thật là nhiều nhà nghiên cứu AI muốn tôn Elon như một đấng quân vương đến vậy không
- Dùng Grok để phân tích hình ảnh món ăn theo thị giác thì hoạt động rất tốt, nhận diện thương hiệu hay cả những bức ảnh chụp lệch lạc của người dùng cũng vẫn nhận ra tốt, API cũng cực kỳ dễ dùng
- Tôi cho rằng tích hợp vào dịch vụ thực tế một mô hình mà tuần trước còn tự gọi mình là "Mecha Hitler" là một lựa chọn không tỉnh táo chút nào, tôi là fan của Musk nhưng vẫn phải chỉ ra rằng trong khi ông ấy chỉ trích Sama thì chính ông ấy cũng đang tung ra một AI mạnh tương tự nhưng khả năng kiểm soát lại yếu y hệt vậy