5 điểm bởi GN⁺ 2026-05-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cung cấp các tính năng API hướng tới nhà phát triển như cửa sổ ngữ cảnh 1 triệu token, suy luận, gọi hàmđầu ra có cấu trúc
  • Khác với Grok 4.20 trước đó, suy luận luôn được bật, tự động thực hiện quá trình suy nghĩ trước khi phản hồi cho mọi truy vấn
  • Giảm khoảng 40% giá token đầu vào, giảm khoảng 60% giá token đầu ra, giúp cắt giảm chi phí đáng kể so với mẫu trước
    • Giá: đầu vào $1.25/1M token, đầu vào được cache $0.20/1M, đầu ra $2.50/1M
    • Thuộc nhóm rẻ nhất trong các mô hình có cùng mức độ thông minh
  • Hiệu năng tác vụ agentic tăng mạnh — đạt ELO 1500 trong benchmark GDPval-AA, tăng 321 điểm so với Grok 4.20 và vượt Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini cùng nhiều mẫu khác
  • Lần đầu tiên trong các mô hình xAI API hỗ trợ đầu vào video native, xử lý trực tiếp các khung hình video thông qua bộ mã hóa thị giác
  • Đứng số 1 trong suy luận pháp lý (độ chính xác CaseLaw v2 79.3%) và số 1 trong tài chính doanh nghiệp (CorpFin), tăng 25 điểm ở suy luận pháp lý so với Grok 4.20
  • Trong giao diện chat có thể tạo trực tiếp slide thuyết trình, đồng thời tạo và tải xuống tệp PDF, Excel, PowerPoint theo thời gian thực ngay trong cuộc trò chuyện
  • Cung cấp môi trường thực thi mã tích hợp, cho phép xử lý việc viết mã, chạy mã và tạo tệp ngay trong mô hình
  • Cũng chính thức ra mắt Speech-to-Text API (25 ngôn ngữ, hỗ trợ tách người nói) và Text-to-Speech API
  • Đạt 53 điểm trên Artificial Analysis Intelligence Index, vượt Muse Spark và Claude Sonnet 4.6, đồng thời nằm trên đường biên Pareto về trí tuệ so với chi phí
  • Rate limit mỗi phút là 1.800 yêu cầu / 10 triệu token, tính phí riêng khi vượt quá 200K
  • Tên mô hình là grok-4.3, với hai khu vực hỗ trợ là us-east-1eu-west-1

1 bình luận

 
GN⁺ 2026-05-02
Ý kiến Hacker News
  • Với tư cách tiếng Anh là ngôn ngữ thứ hai, tôi thấy Grok đặc biệt giỏi trong việc nắm bắt giọng điệu và mức độ trang trọng của một bài viết rồi tái hiện lại y hệt
    Nó có vẻ hiểu những sắc thái rất con người trong ngôn ngữ tốt hơn các nhà cung cấp lớn khác, còn ChatGPT thì thường hoặc quá cứng nhắc và kiểu cách, hoặc lại trượt sang kiểu thân mật kỳ quặc dạng “aye guvnor”. Claude đôi khi tốt hơn, nhưng không phải lúc nào cũng vậy
    Nhìn chung Grok “giống con người” hơn theo một cách khó định nghĩa. Ví dụ nếu hỏi “ở độ dài này thì tin nhắn này có truyền đạt được ý một cách tạm ổn nhất có thể chưa?”, nó sẽ trả lời như người thật bằng có/không hoặc đưa ra gợi ý chỉnh sửa mà vẫn giữ nguyên giọng điệu và độ dài, trong khi ChatGPT vẫn viết ra một bài luận dài dòng mà rốt cuộc vẫn không rõ ràng
    Gần đây tôi cũng thấy nhận giọng nói của Grok khá tốt. Với tính năng bấm mic để hỏi, ChatGPT đạt khoảng 90~95% với giọng của tôi, Android Gboard nhập giọng nói khoảng 75%, còn Grok bất ngờ đạt cỡ 98%

    • Tôi đã đánh giá nhanh Grok 4.3, Opus 4.7 và GPT 4.1, và thực tế chúng trông khá giống nhau: https://ofw640g9re.evvl.io/
      Cả ba đều làm tốt với giọng điệu trang trọng hơn, nhưng ở giọng điệu casual thì chỉ có GPT-4.1 là không bị gượng gạo
      Nhân tiện thì Grok nhanh nhất và rẻ nhất, còn Claude chậm nhất và đắt nhất
    • Ngay cả khi nói chuyện với Grok bằng tiếng mẹ đẻ, tôi vẫn thấy giọng điệu tự nhiên hơn so với các mô hình khác
      Tôi nghĩ đó là nhờ lợi thế được huấn luyện nhiều trên dữ liệu Twitter. Tuy vậy, Twitter đang ngày càng có nhiều nội dung do AI tạo ra, nên tôi lo nếu tiếp tục học từ đó thì độ tự nhiên có thể giảm đi
    • Tôi chỉ dùng Grok thông qua tính cách “Gork” của Tesla, và câu trả lời của nó khá thực tế, thường xuyên thật sự buồn cười, và đôi khi còn hữu ích
    • Nếu “tiếng Anh là ngôn ngữ thứ hai”, tôi tò mò làm sao bạn biết nó thực sự tốt hơn
      Không phải coi thường đâu, nhưng chuyện này có vẻ thiên về cảm nhận hơn
    • Một người bạn dùng nó để chuẩn bị D&D, và nói rằng nó đặc biệt tốt cho mục đích đó nhờ khả năng khớp đúng bầu không khí và phong cách mong muốn
      Còn cho việc khác thì bạn ấy vẫn thích ChatGPT hơn
  • Grok là mô hình tôi thích nhất để chat, và tôi cũng thích chế độ thoại của nó nhất
    Nó có vẻ là chế độ thoại duy nhất không điều hướng sang các mô hình siêu rẻ như Haiku, và chất lượng thuộc hàng cao nhất trong nhóm frontier
    Nếu đăng ký SuperGrok, bạn có thể tạo một “council” gồm các agent, mỗi agent có system prompt riêng, và khi hỏi thì nó sẽ hỏi tất cả song song rồi đưa ra kết luận
    Chỉ là tôi ước họ đầu tư thêm cho ứng dụng. Thực ra ứng dụng là lý do duy nhất khiến tôi chưa đăng ký SuperGrok
    Không có hỗ trợ MCP/app kết nối, mới chỉ được công bố chứ vẫn chưa dùng được. Bạn không thể kết nối Grok với bất cứ thứ gì, nên rất khó dùng cho công việc nghiêm túc
    Project vẫn chưa được hỗ trợ trong app, nên khoảnh khắc bạn chuyển thứ gì đó vào project thì nó biến mất khỏi mọi ứng dụng native
    Không có cách thêm trực tiếp artifact như tài liệu Markdown đã tạo vào project, nên bạn phải xuất ra PDF/Markdown rồi nhập lại. Thậm chí còn không xuất được artifact. Điều này khiến việc phát triển project một cách động với thông tin mới trở nên khó khăn, nên khá bất tiện cho công việc dự án nghiêm túc
    Cũng không có tính năng nhớ, và bạn cũng không thể tìm lại các cuộc chat khác, nên mỗi cuộc chat đều bắt đầu hoàn toàn từ đầu
    Trong project thì hoàn toàn không có chế độ thoại
    Nếu có ai từ xAI đọc được, sẽ rất tuyệt nếu họ thêm vào ít nhất một vài thứ trong số này

    • Tôi bắt đầu ngày càng thích chuyện không có tính năng nhớ
      Claude nhớ là tôi có lò nướng than, nên ngay cả trong những cuộc trò chuyện hoàn toàn không liên quan hoặc chỉ nói về đồ ăn, nó cũng chen vào rằng món này có thể hợp với BBQ
    • Chế độ thoại của app Gemini dùng mô hình tương đối mới, chứ không phải mô hình nhỏ đã bị giảm chất lượng, nên khá có năng lực
      Tính cách của nó cũng ổn, và tự nhiên hơn nhiều so với chat Gemini trên web. Điều tôi phàn nàn duy nhất là nó cứ cố gợi ý “bước tiếp theo”, nhưng hình như mô hình nào cũng vậy
      Tôi không rõ chuyện “bước tiếp theo” này là để tăng chi phí, hay là vì chúng vẫn chưa học được mẫu hội thoại tự nhiên để phân biệt giữa những câu hỏi chỉ cần trả lời ngắn rồi kết thúc với những cuộc trò chuyện khám phá dài hơi. Dù sao thì nếu bảo nó đừng làm vậy nữa, nó cũng nên nghe theo
    • Tôi nghĩ Grok sẽ có lợi rất lớn nếu cho phép dùng gói 300 USD/tháng “SuperGrok Heavy” như mức usage đi kèm trong coding harness
      Hiện giờ gói Heavy có cho một ít API credit nên bạn có thể dùng Grok ở mức nào đó cho coding, nhưng tôi không thấy nó đáng giá 300 USD
      Tôi không có ý là họ phải tự làm một grok-code harness riêng, chỉ cần cho dùng trong các công cụ hiện có là đã hữu ích rồi. Có lẽ thương vụ mua Cursor cuối cùng sẽ dẫn đến điều đó
    • Tôi nghĩ tất cả những vấn đề được nhắc tới chính là lý do của thương vụ Cursor
    • Tôi không rõ nếu đăng ký SuperGrok thì có dùng được trong Pi agent hay Opencode không
      Không rõ SuperGrok có cấp API key hay không
  • Trong các bài test của chúng tôi, Grok 4.3 là một mô hình khá đặc biệt
    Đây là một trong những mô hình nhanh nhất, và phản hồi của nó ngắn hơn nhiều, mật độ token cao hơn các mô hình khác có hiệu năng tương tự
    Tuy vậy, năng lực suy luận code tổng thể của nó không cạnh tranh được với các đợt phát hành lớn hồi tháng 4, và cả Grok 4.20 lẫn Grok 4.3 đều không thực sự đẩy mạnh đáng kể đường biên trí tuệ kể từ Grok 4
    Grok 4.3 tốt hơn ở các tác vụ dạng agent, và có lẽ công bằng khi xem nó ở tầm GPT 5.1 / Gemini 3 Pro Preview nhưng nhanh hơn và rẻ hơn nhiều. Vì thế theo cách riêng của nó thì đây chắc chắn vẫn là một đợt phát hành ổn
    Trong các mô hình open weights công bố gần đây có khá nhiều mẫu thông minh hơn nhưng chậm hơn
    Toàn bộ benchmark có ở https://gertlabs.com/rankings

    • Tôi tự hỏi liệu có sự đánh đổi nào để khiến nó trông như hoạt động tốt với thông tin sau mốc knowledge cutoff hay không
      Đó có vẻ là trường hợp sử dụng chính của Grok, và tôi cũng tò mò không biết có benchmark nào liên quan đến chuyện này không
  • Gần đây Grok đã trở thành công cụ tìm kiếm của tôi
    Nó có vẻ là AI duy nhất có thể truy cập bài đăng trên X, và ngoài chuyện đó ra thì nhìn chung cũng cho cảm giác “đi tìm kiếm” nhiều hơn các mô hình ngôn ngữ lớn khác

    • Khi tìm tin về các sự kiện nóng, tôi chủ yếu dùng Grok và Gemini
      Trong vụ việc liên quan đến Iran, tôi muốn nắm tình hình ngay khi báo chí đưa tin, và cả hai đều khá tốt
    • Tôi thắc mắc ngay từ đầu là vì sao lại muốn tìm trên Twitter
  • Nhìn vào cục diện hiện tại thì Claude dành cho doanh nghiệp và chính phủ, Codex dành cho lập trình viên, còn Grok thì tôi chẳng biết dùng vào việc gì
    Quanh tôi, những gì tôi nghe gắn với Grok chỉ là nhập vai và phân biệt chủng tộc

    • Thú vị là tôi biết một trường hợp một tổ chức từ thiện xử lý nạn buôn người dùng Grok
      Grok sẵn sàng làm một tác vụ phân loại một lần mà tất cả các mô hình khác đều từ chối
      Tôi nghĩ có khá nhiều trường hợp sử dụng thực tế hữu ích ở vùng xám cho các mô hình cận-frontier ít bị rào chắn hơn một chút như vậy. Mô hình grok-fast cũng rẻ nữa
    • Theo những gì tôi biết thì Grok không được dùng nhiều cho nhập vai
      Nó bị xem là thiếu nhất quán và hơi loạn
      Người ta chủ yếu dùng GLM và DeepSeek qua API, còn chạy local thì dùng các bản fine-tune của Gemma4 và Mistral
      Thị trường nhập vai tương đối lâu đời và trưởng thành, nên có vẻ người dùng rất để ý chi phí và muốn mô hình phải đi theo workflow cũng như sở thích của họ. Vì vậy những thứ như Opus thì được thích vì thông minh, nhưng lại bị xem là quá đắt và quá cứng đầu
      Có thể đây là một điểm dữ liệu thú vị cho thấy các thị trường khác rồi sẽ phát triển như thế nào
    • Nếu cần hỏi mọi người trên Twitter đang nói gì thì Grok dĩ nhiên rất tốt
      Tôi luôn dùng nó cho kiểu câu hỏi như “dạo này dân Twitter sành điệu đang bảo tiling window manager nào là đỉnh nhất?”
      Và với những câu hỏi mơ hồ hơi đáng ngờ thì Grok cũng thường trả lời. Kiểu như “tìm cho tôi mấy trang bán license Windows chợ xám”
    • Tôi hiểu việc thể hiện qua lời nói và bài viết rằng mình đồng điệu với các giá trị của thời đại là rất quan trọng, nhưng tôi không nghĩ mục tiêu của các AI lab nên là bảo đảm về mặt cấu trúc rằng mô hình ngôn ngữ không thể nào làm một chủng tộc/sắc tộc/giai cấp cụ thể khó chịu
      Mô hình ngôn ngữ chỉ là một hệ thống, và tôi cũng không thật sự hiểu vì sao người dùng lại không phải chịu trách nhiệm về cách họ sử dụng đầu ra. Cũng giống như việc không ai coi cây bút là công cụ “phân biệt chủng tộc” vô dụng chỉ vì có người có thể viết điều tồi tệ lên vách ngăn nhà vệ sinh
      Có lẽ bạn đang sống ở nơi quấy rối là tội phạm, và cũng có thể có quy định về phát ngôn. Như vậy chưa đủ sao? Tôi nghi ngờ việc mọi nỗ lực của toàn bộ con người trên Trái Đất phải chạy theo những trào lưu đạo đức thay đổi vài năm một lần
    • Khoảng 2~3 tháng trước đã có một cuộc thảo luận bàn tròn về AI trên trang nhất HN, và có người làm phân tích outlier rồi đưa lên GitHub
      Bạn chỉ cần đoán xem mô hình ngôn ngữ lớn nào là outlier lớn nhất, và ở loại câu hỏi nào nó lại bất đồng với mọi mô hình khác
  • Tôi thật sự tò mò không biết mọi người có dùng Grok cho việc gì thực tế ngoài chuyện hiểu meme hay tweet trên Twitter không

    • Có chứ, nó thực sự hữu ích cho một số việc
      Nó không cư xử như phụ huynh bảo hộ nhiều như các mô hình khác. Tôi hay tìm tài liệu hết bản quyền thương mại nhưng vẫn mồ côi quyền tác giả từ nhiều thập kỷ trước, và các mô hình lớn thường từ chối rồi lên lớp rằng tôi đang tìm tài liệu có bản quyền. Grok thì làm giúp [0]
      [0] Đôi khi vẫn phải jailbreak nhẹ hoặc chạy lại prompt. Do tính không xác định nên thỉnh thoảng nó vẫn từ chối
    • Tất nhiên rồi. Người dùng dùng nó cho đủ mọi mục đích: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
    • Grok có chế độ thoại hữu ích nhất
      Chế độ thoại của ChatGPT rất ngớ ngẩn, còn Grok có vẻ dùng cùng mô hình với chat chính. Vì thế nếu muốn dùng bằng giọng nói thì tôi dùng Grok
      Tôi cũng dùng nó cho các chủ đề không phức tạp. Nó cho câu trả lời chính xác, ngắn gọn, không rườm rà, nên rất mới mẻ
    • Tôi tò mò bao nhiêu phần trong số đó đến từ dữ liệu huấn luyện Twitter
      Nó hữu ích cho meme và xu hướng, nhưng với việc khác thì rất tệ
    • Tôi chủ yếu dùng Grok cho tìm kiếm, DIY, tài chính cá nhân, và AI cho sinh hoạt hằng ngày nói chung
      Nếu nó trở nên tốt ngang Kimi K2.6 trong coding, chắc tôi sẽ chỉ dùng mỗi Grok. Thật sự đây là AI hội thoại tốt nhất tôi từng dùng
      Nó đã giúp tôi sửa một cái tủ lạnh hỏng và một lò nướng điện hỏng, tiết kiệm cho tôi ít nhất 4.000 USD chỉ trong năm nay
      Tôi cũng khai thuế bằng Grok và tiết kiệm được 600 USD. H&R Block coi như xong
      Hóa ra nó đã thông minh ngang Kimi K2.6 rồi. Đã đến lúc thử lại
  • Tôi ngạc nhiên là chẳng ai nói về việc nó rẻ đến mức nào so với Opus 4.x và GPT-5.5
    Giá là 1,25 USD cho 1 triệu token đầu vào, và 2,50 USD cho 1 triệu token đầu ra
    Tôi không rõ là vì nó là mô hình nhỏ hơn và kém mạnh hơn, hay tôi đang bỏ sót điều gì

    • Giá theo token thì rẻ hơn, nhưng có vẻ nó suy luận nhiều hơn hẳn, nên tổng chi phí lại gần với 4.20 mà hiệu năng thì tốt hơn
      Nhìn chung đây là mô hình tốt nhất họ từng ra mắt cho đến nay, và tôi thích việc họ là một trong số ít nơi đang giảm giá token
      [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
    • Họ giảm chi phí đầu ra nhưng chi phí đầu vào lại tương đối cao
      Đây là xu hướng gần đây, và tôi cũng thấy ở DeepSeek 4 Pro
    • Trong chỗ đồng nghiệp của tôi có sự phản đối về mặt đạo đức rất mạnh với bất cứ thứ gì liên quan đến Elon Musk và dữ liệu huấn luyện
      Nhìn bình luận thì ở đây cũng có. Kiểu phản ứng như “Claude là cho doanh nghiệp và chính phủ, Codex là cho lập trình viên, còn Grok là gì, nhập vai với phân biệt chủng tộc à? Quanh tôi chỉ nghe Grok gắn với hai thứ đó thôi”
    • Đúng vậy, vì nó là mô hình kém mạnh hơn rất nhiều
    • Grok gắn với Elon Musk
      Nếu lấy biên lợi nhuận của $TSLA làm chỉ dấu thay thế thì có vẻ không còn cao như trước. Có thể còn yếu tố khác, nhưng giữa điểm đó với mức giá thấp của Grok có thể có một lời giải thích còn thiếu
  • Grok 4.3 đã hoàn tất trước khi CEO của nó kịp tìm hiểu về những tài liệu an toàn phổ biến
    Khi được hỏi có biết “safety card” của OpenAI không, Musk cười và trả lời “Safety card? Sao lại phải là card?”
    https://www.axios.com/2026/04/30/musk-openai-safety-grok
    Bất kể quy mô cluster hay việc dùng tạm máy phát điện trong một thời gian, điều này có vẻ không mấy liên quan
    Trong lời khai sau đó, khi được hỏi về tuyên bố mùa hè năm ngoái rằng xAI sắp vượt rất xa mọi công ty khác trừ Google, Musk đã liệt kê các nhà cung cấp AI hàng đầu thế giới theo thứ tự Anthropic, OpenAI, Google, rồi đến các mô hình mã nguồn mở Trung Quốc, và giải thích rằng xAI là công ty nhỏ hơn nhiều với vài trăm nhân viên
    https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
    Tôi không liên quan đến công ty AI nào, nhưng hôm qua đọc cái này xong thấy sốc. Việc Elon có thể không biết model card là gì khá đáng lo, và cũng cho thấy tiền không phải lúc nào cũng mua được thành công

    • Nói nghiêm túc thì tôi cũng thắc mắc vì sao lại gọi là model “card”, safety “card”
      Tôi tra thì hóa ra nó bắt nguồn từ việc HuggingFace định nghĩa khá mơ hồ README của kho mô hình. Đây là thuật ngữ quá đặc thù, nên có lẽ ngoài người dùng hay giới điều hành ra thì ngay cả trong nội bộ cũng chỉ rất ít người biết
      Tôi không thích Musk hay Grok, nhưng tôi không nghĩ việc không biết safety card là gì lại là tín hiệu của điều gì đó
    • Elon từ trước đến nay công khai nói rằng ông ấy rất coi trọng an toàn
      Ông ấy nói chỉ những mô hình được căn chỉnh tốt nhất với sự thật ngoài đời mới là an toàn, và xAI đã bám theo hướng đó ở chỗ ít hoặc gần như ít ảo giác nhất trong benchmark
      Nếu đọc lại phát biểu đó, ý ông ấy là “làm sao có thể định lượng độ an toàn bằng một cái card?”
  • Grok rất giỏi trong việc duy trì các cuộc trò chuyện giả định một cách vui vẻ
    Nếu muốn có kết quả thú vị nhất, tốt nhất là cứ nói trước rằng “đã được cho phép rồi”
    Nó cũng viết lời rap rất hay. Bạn có thể “priming” nó như một cuốn từ điển những từ ngữ và cách diễn đạt xấu có thể lấy từ lời bài hát khác, rồi ném vào một chủ đề như “web development” là ra kết quả buồn cười

  • Tôi vẫn ước họ đặt cái tên khác, nhưng trông đây là một đợt phát hành ổn, nên xin chúc mừng đội ngũ
    So với các mô hình cạnh tranh tương tự thì mức giá cũng khá bất ngờ. Có vẻ họ hoặc là có năng lực rất lớn, hoặc là muốn kéo thêm nhiều người dùng hơn

    • Tôi tò mò không biết là bạn ghét mọi tham chiếu khoa học viễn tưởng nói chung, hay đặc biệt ghét Heinlein