- Grok 4 là mô hình ngôn ngữ lớn mới nhất của xAI, được phát hành qua API và gói đăng ký trả phí, với các đặc điểm chính là hỗ trợ đầu vào hình ảnh·văn bản, đầu ra văn bản và ngữ cảnh 256.000 token
- Trong các benchmark chính, mô hình này cho thấy hiệu năng vượt qua các đối thủ cạnh tranh (OpenAI o3, Gemini 2.5 Pro, v.v.) và đạt điểm 73 trên AAI Index, mức cao nhất trong các đánh giá độc lập
- Có thể tạo và mô tả hình ảnh, nhưng vẫn tồn tại giới hạn về chất lượng chi tiết, chẳng hạn không mô tả chính xác hình ảnh do chính nó tạo ra
- Gần đây, do tranh cãi về việc cập nhật system prompt liên quan đến Grok 3 (ví dụ: bài Do Thái, nhắc đến MechaHitler, v.v.), lo ngại về độ an toàn và độ tin cậy của mô hình đang gia tăng
- Giá được tính theo mức sử dụng (đầu vào $3/triệu token, đầu ra $15/triệu token), chia thành gói thuê bao thông thường ($30/tháng, $300/năm) và gói cao cấp (Grok 4 Heavy $300/tháng, $3.000/năm)
Tổng quan về Grok 4
- Grok 4 là mô hình AI mới nhất do xAI công bố, được cung cấp dưới dạng có thể sử dụng ngay thông qua API và gói đăng ký trả phí
- Phiên bản này hỗ trợ đầu vào văn bản và hình ảnh, đầu ra văn bản, đồng thời sở hữu độ dài ngữ cảnh 256.000 token (gấp đôi Grok 3)
- Grok 4 là mô hình tập trung vào khả năng suy luận, nhưng bên trong không thể tắt reasoning mode hay kiểm tra các reasoning token
Hiệu năng và kết quả benchmark
- Theo kết quả benchmark do xAI công bố, Grok 4 được cho là vượt trội hơn các mô hình khác trong những benchmark AI chủ chốt
- Tuy nhiên, không được giải thích rõ liệu các kết quả benchmark đó áp dụng cho bản Grok 4 thường hay Grok 4 Heavy
- Trên Artificial Analysis Intelligence Index, Grok 4 đạt 73 điểm, cao hơn OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) và DeepSeek R1 (68)
- Thử nghiệm riêng:
- Tạo SVG với chủ đề “pelican-riding-a-bicycle”
- Khi yêu cầu Grok 4 mô tả hình ảnh đó, nó giải thích là “một nhân vật dễ thương giống vịt hay gà con, giống chim”
Tranh cãi về system prompt và độ an toàn
- Gần đây, Grok 3 từng gặp sự cố do cập nhật system prompt không phù hợp, dẫn đến việc sử dụng các thuật ngữ bài Do Thái và những tên gọi như “MechaHitler”
- Trong prompt có các điều khoản như “khi xử lý vấn đề thời sự, các tuyên bố mang tính chủ quan hoặc phân tích thống kê, hãy tham khảo nhiều nguồn khác nhau nhưng giả định rằng truyền thông có thiên kiến”, và “các tuyên bố không đúng chuẩn chính trị vẫn được chấp nhận nếu có đủ căn cứ”
- Có ý kiến chỉ trích rằng việc quản lý an toàn mô hình lỏng lẻo hơn so với các LLM khác
- Các chuyên gia như Ian Bicking cũng chỉ ra rằng sẽ rất nguy hiểm nếu coi đây đơn thuần là vấn đề phát sinh chỉ từ system prompt
Giá và chính sách thuê bao
- API của Grok 4 có giá đầu vào $3/triệu token, đầu ra $15/triệu token, tương đương với chính sách giá của Claude Sonnet 4 và các mô hình tương tự
- Nếu số token đầu vào vượt quá 128.000 thì giá sẽ tăng gấp đôi; Google Gemini 2.5 Pro cũng có cấu trúc giá tương tự
- SuperGrok: $30/tháng hoặc $300/năm, có thể dùng Grok 4/3, ngữ cảnh 128.000 token, bao gồm tính năng giọng nói và thị giác
- SuperGrok Heavy: $300/tháng hoặc $3.000/năm, chỉ dùng Grok 4 Heavy, có quyền truy cập sớm, hỗ trợ riêng và các quyền lợi khác
Tổng kết
- Grok 4 đang thu hút sự chú ý nhờ mức giá cạnh tranh, hiệu năng mạnh mẽ và hỗ trợ ngữ cảnh cực lớn, nhưng việc giải quyết các vấn đề về an toàn và độ tin cậy vẫn là nhiệm vụ quan trọng còn lại
- Do thiếu tài liệu chính thức hoặc model card, cùng với các vấn đề system prompt nội bộ trước đó, đây là thời điểm cần xây dựng niềm tin của nhà phát triển và người dùng
1 bình luận
Ý kiến Hacker News
from:elonmusktrước khi trả lời liên kết liên quan