Ra mắt Grok 4
(twitter.com/xai)- Grok 4 là mô hình AI mới nhất được xAI ra mắt sau khoảng 2 năm, hiện thực hóa trí tuệ và khả năng suy luận vượt trội hơn nghiên cứu sinh ở mọi lĩnh vực
- Quy mô huấn luyện và tài nguyên tính toán đã tăng hơn 100 lần, đồng thời phát triển xoay quanh reinforcement learning (RL), qua đó chứng minh năng lực giải quyết vấn đề vượt mức con người
- Đạt điểm ARC-AGI 15.9%, ghi nhận thành tích nổi bật trong đánh giá suy luận trừu tượng và trí tuệ tổng quát ở nhóm AI tốt nhất hiện nay
- Trên nhiều benchmark như Humanity’s Last Exam (HLE), mô hình cho kết quả đột phá là 26.9% khi không dùng công cụ, 41~50.7% khi dùng công cụ
- Với native voice mode, mô hình mang lại tương tác gần với con người như hội thoại thời gian thực, biểu đạt cảm xúc và phản hồi độ trễ thấp
Grok 4
- xAI do Elon Musk sáng lập đã công bố Grok 4 sau khoảng 2 năm và nhấn mạnh đây là “mô hình AI tốt nhất thế giới”
- Mô hình đạt điểm tuyệt đối trong các kỳ thi chuẩn hóa như SAT, GRE, đồng thời cho thấy hiệu năng chưa từng có với các bài toán ở trình độ cao học và tiến sĩ trên mọi lĩnh vực học thuật
> "Về các câu hỏi học thuật, Grok 4 thông minh hơn nghiên cứu sinh ở mọi môn học" - Grok 2 là mô hình khái niệm, Grok 3 tập trung vào pretraining dựa trên nhiều nguồn dữ liệu, còn Grok 4 được huấn luyện với tài nguyên tính toán và dữ liệu nhiều hơn 100 lần so với Grok 2, và 10 lần so với Grok 3
- Mô hình được huấn luyện trên siêu máy tính Colossus (200.000 GPU), tập trung vào pretraining và RL
- Tập trung vào reinforcement learning (RL), áp dụng cấu trúc tự sửa lỗi trong đó mô hình nhận phản hồi trong quá trình giải quyết vấn đề và dần cải thiện hiệu năng
- Nhấn mạnh rằng mô hình đã đạt bước tiến lớn trong thời gian ngắn dựa trên năng lực giải quyết vấn đề logic và tư duy “first principles”
2 phiên bản mô hình
- Gồm mô hình cơ bản Grok 4 và phiên bản tăng cường hiệu năng Grok 4 Heavy
- Grok 4 Heavy hiện thực hóa trí tuệ tập thể theo cách tiếp cận multi-agent, trong đó nhiều agent cùng giải bài toán đồng thời rồi so sánh kết quả để tìm ra đáp án tối ưu
- Có thể sử dụng qua gói đăng ký SuperGrok Heavy (300 USD/tháng)
Bước đột phá về chấm điểm AGI
- Grok 4 ghi nhận 15.9% trong bài test ARC-AGI, thuộc nhóm điểm số cao nhất ngành
- ARC-AGI đánh giá trí tuệ tổng quát và năng lực giải quyết vấn đề trừu tượng của mô hình, tập trung đo khả năng nhận diện mẫu thị giác và áp dụng vào tình huống mới
Thành tích tại Humanity's Last Exam (HLE)
-
Humanity’s Last Exam (HLE), được giới thiệu vào tháng 1/2025, là benchmark siêu khó gồm hơn 100 lĩnh vực và 2.500 câu hỏi như toán, sinh học, khoa học xã hội, vật lý, AI, kỹ thuật, hóa học
-
Thành tích của Grok 4: “ở mức mà con người thực tế hay AI hiện có không thể tiếp cận”
- Không dùng công cụ: 26.9%
- Dùng công cụ (Grok 4 Heavy): 41%
- Áp dụng thêm tính toán khi test (32x): đạt tối đa 50.7%
-
Không dùng công cụ nghĩa là chỉ giải bài bằng năng lực ngôn ngữ/suy luận tích hợp; dùng công cụ là cách kết hợp với hệ thống multi-agent như chạy code, tìm kiếm web, sử dụng dữ liệu bên ngoài
-
Training compute sử dụng siêu máy tính Colossus với 200.000 GPU để huấn luyện tri thức mô hình và khả năng dùng công cụ; test-time compute là chạy song song nhiều mô hình trong lúc giải bài và bao gồm cả quá trình kiểm chứng kết quả
> “Grok 4 đạt trình độ từ PhD trở lên ở mọi lĩnh vực”
> "Sắp tới thậm chí có thể kỳ vọng vào khám phá công nghệ mới/vật lý mới"
Điểm benchmark AI chính
- AIME: năng lực giải các bài toán toán học phức tạp ở trình độ trung học phổ thông
- GPQA: đánh giá suy luận khoa học ở trình độ cao học như vật lý
- LiveCodeBench: đo năng lực lập trình dựa trên các thử thách Python
- MMLU-Pro: khả năng giải các câu hỏi trắc nghiệm khó thuộc nhiều lĩnh vực chuyên môn
- LOFT: đánh giá năng lực trích xuất thông tin cần thiết cho các truy vấn phức tạp từ văn bản dài
Trường hợp ứng dụng thực tiễn và triển khai ngoài đời thực
- Trong mô phỏng kinh doanh (VendingBench), Grok 4 cho thấy hiệu năng và độ nhất quán cao hơn gấp đôi so với các mô hình trước, chứng minh năng lực thực thi chiến lược dài hạn
- Tại các phòng thí nghiệm khoa học sự sống và nơi khác, mô hình được đưa vào phân tích log thí nghiệm quy mô lớn, hình thành giả thuyết và đọc ảnh y khoa, qua đó chứng minh hiệu quả công việc thực tế
- Trong phát triển game, mô hình hỗ trợ tự động thu thập game asset và tạo code, giúp chỉ một nhà phát triển cũng có thể nhanh chóng hoàn thiện game 3D
Đổi mới của native voice mode
- Grok 4 hỗ trợ hội thoại giọng nói thời gian thực, ngắt lời tự nhiên giữa chừng, hiểu/tái tạo ngữ điệu cảm xúc và phản hồi siêu độ trễ thấp, mang lại tương tác kiểu con người vượt qua các hệ thống TTS hiện có
- Bổ sung nhiều kiểu giọng nói khác nhau (kiểu Anh-Anh, kiểu trailer, v.v.) và qua demo trực tiếp đã trình diễn sự mượt mà, tốc độ và tính ứng dụng đa dạng của hội thoại thời gian thực
Mở rộng API và hệ sinh thái
- Grok 4 cũng được công bố qua API, cho phép mọi người dùng vào benchmark test và ứng dụng kinh doanh
- Các đối tác trong nhiều lĩnh vực như tài chính, khoa học, giải trí đã bắt đầu áp dụng, làm tăng tác động ngoài đời thực
- Cung cấp 256k context length, tăng cường khả năng xử lý tác vụ dài và phức hợp
Hạn chế và hướng phát triển tiếp theo
- Ở thời điểm hiện tại, điểm yếu lớn nhất của Grok 4 là còn thiếu năng lực hiểu/tạo nội dung đa phương thức như hình ảnh và video
- Với foundation model v7 sắp hoàn tất huấn luyện và RL được tăng cường thêm, mô hình dự kiến sẽ được cải thiện toàn diện về vision, video, audio
- xAI cũng báo trước việc phát triển và ra mắt mô hình tạo video (sử dụng hơn 100.000 GPU GB200)
Lộ trình sắp tới của xAI
- Tháng 8/2025: dự kiến ra mắt mô hình coding
- Tháng 9/2025: công bố tác nhân multimodal
- Tháng 10/2025: dự kiến giới thiệu mô hình tạo video
- Công cụ và hiệu năng mô hình sẽ tiếp tục được tăng cường
Kết luận và hàm ý
- Grok 4 chứng minh mình thực sự cạnh tranh ngang ngửa hoặc vượt lên so với các AI tốt nhất hiện nay ở khả năng suy luận và giải quyết vấn đề học thuật
- Với trí tuệ và năng lực suy luận chưa từng có, tương tác giọng nói thời gian thực, khả năng dùng công cụ và cấu trúc multi-agent, đây được xem là bước ngoặt thực chất hướng tới AGI thế hệ tiếp theo
- Cùng với khả năng mở rộng sang công việc thực tế/kinh doanh/game/nghiên cứu/giải trí, xAI được kỳ vọng sẽ định vị mình như công ty AGI phát triển nhanh nhất
- Chu kỳ phát triển nhanh và các bước đi quyết liệt của xAI cho thấy cạnh tranh trong ngành AI đang tiếp tục tăng tốc
6 bình luận
Grok 4 giờ đã là mô hình AI hàng đầu
Đánh giá Grok 4 của Simon Willison
Grok tìm kiếm Elon Musk nói gì trên X về vấn đề Israel-Palestine
Chắc phải dùng thực tế mới biết được, nhưng với 200.000 GPU và nguồn nhân lực như vậy thì đúng là có thể tăng trưởng mạnh tay đến thế. Khi Colossus lên tới 1 triệu GPU thì không biết sẽ còn cải thiện đến mức nào nữa.
Tính H100 là 50 triệu won một chiếc thì riêng giá GPU đã là 50 nghìn tỷ won. Còn phải xây trung tâm dữ liệu, lại còn cần điện ở khu vực xung quanh nên nghe nói phải cộng thêm khoảng 20 nghìn tỷ won nữa, thành ra là 70 nghìn tỷ won. Có vẻ AI ngày càng trở thành cuộc chiến về tiền bạc.
Sao tự nhiên lại lôi cả nghiên cứu sinh ra để chửi vậy trời haha
kkk, nghiên cứu sinh bị ăn đòn bất ngờ nên ngơ ngác luôn ..
Tôi hiểu Grok 4 rất ấn tượng, nhưng những câu kiểu rất đặc trưng của khối Anh ngữ như "sớm thôi còn có thể kỳ vọng nó khám phá ra cả công nghệ mới/vật lý mới" cũng khá thú vị. Nếu sớm chứng minh/bác bỏ được giả thuyết Riemann thì chắc chẳng cần thêm benchmark gì nữa nhỉ?
Ý kiến Hacker News
#!/bin/bash) nó cònwgetđúng artifact phần mềm mới nhất từ GitHub bằng địa chỉ chính xác, thực sự quá ấn tượng