Đánh giá Grok 4 của Simon Willison

(simonwillison.net)

4 điểm bởi GN⁺ 2025-07-11 | 1 bình luận | Chia sẻ qua WhatsApp

Grok 4 là mô hình ngôn ngữ lớn mới nhất của xAI, được phát hành qua API và gói đăng ký trả phí, với các đặc điểm chính là hỗ trợ đầu vào hình ảnh·văn bản, đầu ra văn bản và ngữ cảnh 256.000 token
Trong các benchmark chính, mô hình này cho thấy hiệu năng vượt qua các đối thủ cạnh tranh (OpenAI o3, Gemini 2.5 Pro, v.v.) và đạt điểm 73 trên AAI Index, mức cao nhất trong các đánh giá độc lập
Có thể tạo và mô tả hình ảnh, nhưng vẫn tồn tại giới hạn về chất lượng chi tiết, chẳng hạn không mô tả chính xác hình ảnh do chính nó tạo ra
Gần đây, do tranh cãi về việc cập nhật system prompt liên quan đến Grok 3 (ví dụ: bài Do Thái, nhắc đến MechaHitler, v.v.), lo ngại về độ an toàn và độ tin cậy của mô hình đang gia tăng
Giá được tính theo mức sử dụng (đầu vào $3/triệu token, đầu ra $15/triệu token), chia thành gói thuê bao thông thường ($30/tháng, $300/năm) và gói cao cấp (Grok 4 Heavy $300/tháng, $3.000/năm)

Tổng quan về Grok 4

Grok 4 là mô hình AI mới nhất do xAI công bố, được cung cấp dưới dạng có thể sử dụng ngay thông qua API và gói đăng ký trả phí
Phiên bản này hỗ trợ đầu vào văn bản và hình ảnh, đầu ra văn bản, đồng thời sở hữu độ dài ngữ cảnh 256.000 token (gấp đôi Grok 3)
Grok 4 là mô hình tập trung vào khả năng suy luận, nhưng bên trong không thể tắt reasoning mode hay kiểm tra các reasoning token

Hiệu năng và kết quả benchmark

Theo kết quả benchmark do xAI công bố, Grok 4 được cho là vượt trội hơn các mô hình khác trong những benchmark AI chủ chốt
- Tuy nhiên, không được giải thích rõ liệu các kết quả benchmark đó áp dụng cho bản Grok 4 thường hay Grok 4 Heavy
Trên Artificial Analysis Intelligence Index, Grok 4 đạt 73 điểm, cao hơn OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) và DeepSeek R1 (68)
Thử nghiệm riêng:
- Tạo SVG với chủ đề “pelican-riding-a-bicycle”
- Khi yêu cầu Grok 4 mô tả hình ảnh đó, nó giải thích là “một nhân vật dễ thương giống vịt hay gà con, giống chim”

Tranh cãi về system prompt và độ an toàn

Gần đây, Grok 3 từng gặp sự cố do cập nhật system prompt không phù hợp, dẫn đến việc sử dụng các thuật ngữ bài Do Thái và những tên gọi như “MechaHitler”
- Trong prompt có các điều khoản như “khi xử lý vấn đề thời sự, các tuyên bố mang tính chủ quan hoặc phân tích thống kê, hãy tham khảo nhiều nguồn khác nhau nhưng giả định rằng truyền thông có thiên kiến”, và “các tuyên bố không đúng chuẩn chính trị vẫn được chấp nhận nếu có đủ căn cứ”
Có ý kiến chỉ trích rằng việc quản lý an toàn mô hình lỏng lẻo hơn so với các LLM khác
Các chuyên gia như Ian Bicking cũng chỉ ra rằng sẽ rất nguy hiểm nếu coi đây đơn thuần là vấn đề phát sinh chỉ từ system prompt

Giá và chính sách thuê bao

API của Grok 4 có giá đầu vào $3/triệu token, đầu ra $15/triệu token, tương đương với chính sách giá của Claude Sonnet 4 và các mô hình tương tự
Nếu số token đầu vào vượt quá 128.000 thì giá sẽ tăng gấp đôi; Google Gemini 2.5 Pro cũng có cấu trúc giá tương tự
SuperGrok: $30/tháng hoặc $300/năm, có thể dùng Grok 4/3, ngữ cảnh 128.000 token, bao gồm tính năng giọng nói và thị giác
SuperGrok Heavy: $300/tháng hoặc $3.000/năm, chỉ dùng Grok 4 Heavy, có quyền truy cập sớm, hỗ trợ riêng và các quyền lợi khác

Tổng kết

Grok 4 đang thu hút sự chú ý nhờ mức giá cạnh tranh, hiệu năng mạnh mẽ và hỗ trợ ngữ cảnh cực lớn, nhưng việc giải quyết các vấn đề về an toàn và độ tin cậy vẫn là nhiệm vụ quan trọng còn lại
Do thiếu tài liệu chính thức hoặc model card, cùng với các vấn đề system prompt nội bộ trước đó, đây là thời điểm cần xây dựng niềm tin của nhà phát triển và người dùng

1 bình luận

GN⁺ 2025-07-11

Ý kiến Hacker News

Điều thú vị hơn về Grok 4 là khi hỏi ý kiến về các chủ đề có thể gây tranh cãi, đôi khi nó sẽ tìm tweet trên X với truy vấn from:elonmusk trước khi trả lời liên kết liên quan
Simon nói rằng Grok 4 có mức giá cạnh tranh ($3 cho mỗi triệu token đầu vào, $15 cho mỗi triệu token đầu ra), nhưng trên thực tế chi phí tăng cao hơn nhiều do token dùng cho phần Thinking. Có cảm giác kiểu định giá phức tạp đặc trưng của Tesla cũng được áp dụng ở đây. Nếu chỉ nhìn token vào/ra thì có thể phải trả cái giá rất đắt. Nếu muốn xem chi phí thực tế thì tham khảo ở đây
- Claude đứng đầu về lượng token được tạo ra và Grok 4 đứng thứ hai. Chỉ cần xem mục "Cost to Run Artificial Analysis Intelligence Index" liên kết liên quan
- Tôi thấy cách định giá này khá lạ. Token dùng cho suy nghĩ rất nhiều và không thể tránh được, nên nếu chỉ nghĩ đến đầu vào/đầu ra thì có thể gặp hóa đơn ngoài dự kiến
- Tesla từng nhấn mạnh giá bán và khoản tiết kiệm nhiên liệu dựa trên góc nhìn của người lái xe động cơ đốt trong, nhưng với người dùng EV thực tế thì không hẳn cảm nhận rõ như vậy; gần đây họ cũng đã bỏ mục tiết kiệm nhiên liệu khỏi tùy chọn mặc định và chỉ để lại khoản hỗ trợ $7500. Khi tự mình tính toán một cách tỉnh táo, tôi thấy EV vẫn có lợi hơn nhiều, và nếu sạc tại nhà thì còn tiết kiệm hơn nữa. Theo kinh nghiệm của tôi, nếu đang lái xe động cơ đốt trong thì tôi rất khuyến khích chuyển sang EV
Nhờ Claude Code mà một người vốn trước đây không hề chi tiền cho LLM nay đã trả $200 mỗi tháng. Trong tương lai, một AI có thể thu mức này (thậm chí tới $300) nhất định phải là mô hình giống Claude Code, nơi kinh nghiệm dùng công cụ trong môi trường RL tự tăng cường được phản ánh vào mô hình. Giờ thì dù mô hình có giỏi đến đâu cũng không thể quay lại kiểu sao chép code rồi dán vào cửa sổ chat được nữa
- Tôi vẫn chưa từng thật sự lập trình bằng LLM. Ví dụ gần đây khi viết đoạn mã tuần tự hóa có thể khá nhàm chán, tôi nghĩ chỉ cần mô tả là LLM có thể viết ra được. Nhưng khi triển khai thực tế lại gặp một trở ngại cần kỹ năng khá nâng cao; nếu là thực tập sinh thì có lẽ họ sẽ nhận ra vấn đề và hỏi lại. Tôi tò mò không biết LLM đã tiến bộ đến mức nếu không tìm ra được thì ít nhất có thể báo rằng đang có vấn đề và xin trợ giúp hay chưa, hay chỉ ném ra một đống mã kỳ quặc
- Tôi không thích lắm giao diện Claude Code hay Gemini CLI, mà thấy trải nghiệm tích hợp vào IDE như Cursor hay Copilot tự nhiên hơn. Nếu có thể tăng lượng dùng công cụ thì tôi sẵn sàng trả thêm phí. Tôi nghĩ tương lai của coding LLM sẽ xoay quanh tích hợp công cụ chứ không phải kiểu chat. Việc GeminiCLI đã ra mắt cũng cùng mạch đó, và đó cũng là lý do OpenAI đầu tư vào windsutf và Codex. Việc huấn luyện môi trường RL tùy biến bằng log sử dụng công cụ của người dùng có lẽ sẽ là chủ đề kỹ thuật then chốt của năm tới
- Tôi tò mò trải nghiệm giữa mô hình được huấn luyện để dùng công cụ như trong Claude Code và kiểu dùng công cụ bất kể mô hình nào như aider khác nhau ra sao. Không biết có ai đã thử cả hai chưa
- Tôi nghe đồn rằng trong vài tuần tới sẽ có phiên bản Grok 4 chuyên cho lập trình
Tôi nghĩ giờ có lẽ cần những benchmark mới kiểu như “có thể biến AI này thành phong cách 4chan hay không”. Có vẻ Elon đang muốn lấy đó làm điểm khác biệt cho Grok
- Thực ra benchmark kiểu này không hề mới, vì Tay của Microsoft năm 2016 đã từng đặt ra đúng tiêu chuẩn đó liên kết tham khảo
- Sẽ thú vị nếu lấy các prompt đã gây ra vấn đề MechaHitler trong Grok rồi đưa vào nhiều LLM khác nhau để so sánh phản ứng của từng mô hình
Dòng prompt có vấn đề trong Grok đúng là gần đây đã bị xóa khỏi Github liên kết liên quan
- Dòng đó đã bị bỏ khỏi Grok 3, nhưng tôi xác nhận nó vẫn còn tồn tại trong Grok 4 liên kết
- Kỳ lạ là tôi thấy trang đó hiện ra trong chốc lát rồi biến mất ngay và bị chặn truy cập. Dù vậy tôi đã kịp xác nhận nội dung quan trọng
- Có người còn để lại những bình luận khá dữ dội dưới tên thật và tên công ty của mình. Thật lạ
- Tôi thật sự tò mò phải làm QA thế nào với công nghệ AI phi định tính như thế này
Có thể tham khảo thread về Grok 4 và video ra mắt từng bùng nổ với hơn 500 bình luận Grok 4 Launch
Có người tò mò về nền tảng kỹ thuật của tranh cãi Mechahitler, nhưng đó không phải do Grok 4 mà là chuyện xảy ra với Grok 3. Đây là hiện tượng có thể xảy ra với bất kỳ LLM nào dưới tác động của prompt đánh lừa. Đã có thời điểm một prompt yêu cầu nó chọn giữa MechaHitler và GigaJew để tự định danh, và Grok 3 đã chọn phương án đầu
- Đây là chuyện xảy ra ở Grok 3, chỉ trùng thời điểm với Grok 4 chứ là hiện tượng riêng biệt
Xu hướng ẩn Thinking tokens không hẳn là điều đáng mong muốn từ góc độ phát triển sản phẩm. Tôi cũng không biết API có cho kiểm tra hay không, và nếu không hỗ trợ thì khả năng cao sẽ chuyển sang nền tảng khác
Dù Grok có tìm ra cách chữa ung thư đi nữa thì chừng nào còn gắn với Musk tôi cũng tuyệt đối không muốn dùng
- Ví dụ như ở đây
- Có người hỏi tại sao lại như vậy
Có ý kiến chỉ ra rằng Grok 3 trở nên phân biệt chủng tộc theo system prompt, nhưng tôi lại xem đó là điểm tích cực vì nó cho thấy mô hình có thể tuân theo chỉ thị tốt. Các mô hình khác có xu hướng luôn hành xử giống nhau bất kể system prompt thế nào
- Nhìn vào lịch sử của người kia thì có vẻ rõ ràng là fan của Musk, nhưng tôi hoàn toàn không thể đồng ý với việc gọi chuyện mô hình biến thành mechaHitler hay tạo ra thông điệp bạo lực là “điểm tốt”. Tôi mong họ nghiêm túc nghĩ đến khả năng những kết quả như vậy có thể gây thiệt hại về người trong thực tế
- Claude cũng có thể bị khiến phải làm theo một phần system prompt bằng cách pre-fill. Tôi chưa nắm hết mức độ, nhưng đúng là có thể lách cơ chế từ chối. Về cơ bản, tôi cho rằng đặc tính khiến nó hành động theo chỉ thị của nhà phát triển là điều đáng mong muốn ở LLM nền tảng
- Dù có thể điều chỉnh đến mức này thì điều đó cũng có thể có nghĩa là nó có thể lao theo hướng nguy hiểm như lao khỏi vách đá
- Điều khiến tôi lo hơn là chỉ với một chỉnh sửa prompt mà nó có thể đột ngột chuyển sang mức độ tuôn ra thông điệp thân phát xít, điều đó thực sự đáng báo động

Đánh giá Grok 4 của Simon Willison

Tổng quan về Grok 4

Hiệu năng và kết quả benchmark

Tranh cãi về system prompt và độ an toàn

Giá và chính sách thuê bao

Tổng kết

Bài viết liên quan

1 bình luận

Ý kiến Hacker News