Gemini 3.1 Pro

(blog.google)

4 điểm bởi GN⁺ 2026-02-20 | 4 bình luận | Chia sẻ qua WhatsApp

Mô hình AI đa phương thức nâng cao để xử lý các tác vụ phức tạp, hướng tới giải quyết vấn đề vượt ra ngoài việc chỉ đưa ra câu trả lời đơn giản
Đạt điểm xác thực 77.1% trên benchmark ARC-AGI-2, đạt hiệu năng suy luận hơn gấp đôi so với 3 Pro trước đó
Thể hiện năng lực suy luận được cải thiện trong các tác vụ khó như tích hợp dữ liệu, giải thích trực quan, lập trình sáng tạo
Xử lý nhiều dạng đầu vào khác nhau như văn bản, âm thanh, hình ảnh, video, kho mã nguồn, đồng thời hỗ trợ ngữ cảnh tối đa 1 triệu token và đầu ra 64K token
Google đang sử dụng bản preview này để nâng cao quy trình làm việc agentic và xác minh trước khi phát hành rộng rãi trong tương lai

Tổng quan về Gemini 3.1 Pro

Gemini 3.1 Pro là mô hình AI đa phương thức nâng cao để xử lý các tác vụ phức tạp, hướng tới giải quyết vấn đề vượt ra ngoài việc chỉ đưa ra câu trả lời đơn giản
- Google mô tả đây là bản nâng cấp trí tuệ cốt lõi đã giúp tạo nên thành quả của Gemini 3 Deep Think
- Xử lý đầu vào đa phương thức như văn bản, âm thanh, hình ảnh, video và kho mã nguồn
- Hỗ trợ cửa sổ ngữ cảnh tối đa 1 triệu token và đầu ra 64K token
- Phiên bản này đang được triển khai dần trên toàn bộ các sản phẩm dành cho người dùng, nhà phát triển và doanh nghiệp
Các kênh triển khai gồm
- Nhà phát triển: Gemini API trong Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Doanh nghiệp: Vertex AI, Gemini Enterprise
- Người dùng: ứng dụng Gemini, NotebookLM

Hiệu năng và benchmark

Gemini 3.1 Pro được tối ưu cho giải quyết vấn đề phức tạp thông qua các cải tiến tập trung vào năng lực suy luận (reasoning)
- Ghi nhận điểm xác thực 77.1% trên benchmark ARC-AGI-2, cải thiện hiệu năng hơn gấp đôi so với 3 Pro trước đó
- Kết quả so sánh hiệu năng chính (so với Gemini 3 Pro):
  - ARC-AGI-2: 77.1% (vs 31.1%)
  - GPQA Diamond: 94.3% (vs 91.9%)
  - Terminal-Bench 2.0: 68.5% (vs 56.9%)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85.9% (vs 59.2%)
- Các benchmark này đánh giá khả năng của mô hình trong việc giải quyết những mẫu logic hoàn toàn mới
Google định nghĩa đây là một “mô hình nền tảng thông minh và có năng lực hơn”, được xem là nền tảng cho giải quyết vấn đề phức tạp

Các trường hợp sử dụng thực tế

Gemini 3.1 Pro cho thấy nhiều khả năng ứng dụng đa dạng bằng cách đưa suy luận nâng cao vào hình thức thực tiễn
- Tạo giải thích trực quan: khả năng giải thích các chủ đề phức tạp một cách rõ ràng và trực quan
- Tích hợp dữ liệu: tổng hợp nhiều nguồn dữ liệu thành một góc nhìn thống nhất
- Triển khai dự án sáng tạo: hiện thực hóa các ý tưởng nghệ thuật và thiết kế bằng mã
Ví dụ cụ thể
- Hoạt họa dựa trên mã: tạo SVG animation cho website từ prompt văn bản, giảm kích thước tệp xuống mức tối thiểu mà không mất độ phân giải
- Tích hợp hệ thống phức tạp: xây dựng dashboard trực quan hóa quỹ đạo của Trạm Vũ trụ Quốc tế (ISS) theo thời gian thực
- Thiết kế tương tác: lập trình mô phỏng đàn chim sáo đá 3D để triển khai giao diện theo dõi tay và phản ứng với âm nhạc
- Lập trình sáng tạo: thiết kế website portfolio hiện đại phản ánh bầu không khí văn chương của Wuthering Heights

Triển khai và truy cập

Gemini 3.1 Pro đang được phát hành dưới dạng preview để thu thập phản hồi từ người dùng
- Người dùng gói Google AI Pro và Ultra có thể sử dụng giới hạn cao hơn trong ứng dụng Gemini
- Trên NotebookLM, chỉ cung cấp độc quyền cho người dùng Pro và Ultra
- Nhà phát triển và doanh nghiệp có thể truy cập qua AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio

Kế hoạch sắp tới

Sau khi phát hành Gemini 3 Pro, Google vẫn duy trì tốc độ cải tiến nhanh và đang thúc đẩy xác minh các bản cập nhật cũng như mở rộng quy trình làm việc agentic thông qua bản preview 3.1 Pro lần này
Bản phát hành rộng rãi (GA) sẽ được tiến hành sau khi hoàn tất xác minh; Google cho biết họ “mong chờ xem người dùng sẽ tạo ra và khám phá điều gì với mô hình này”

4 bình luận

jwh926 2026-02-20

Mong là hiệu năng lập trình sẽ sớm bắt kịp Claude Opus.

ifmkl 2026-02-20

Đúng vậy. Ngày đầu tiên dùng bản preview 3.0 khi nó được đưa lên CLI, tôi đã thích đến mức còn viết cả bài blog chia sẻ cảm nhận nữa, nhưng rồi mọi thứ xuống dốc rất nhanh... Nhờ vậy mà hiện tại tôi chủ yếu dùng codex và claude code. Nhưng claude cũng hơi... Tôi đang tính xem thử 4.6 opus hay sonnet có ổn không, nếu không thì có lẽ sẽ chốt dùng codex cho việc viết code, còn gemini cho các công việc linh tinh khác..

GN⁺ 2026-02-20

Ý kiến trên Hacker News

Rất mong chờ Gemini 3.1 Pro
Đến giờ tôi gần như luôn nghiêng về phía Claude, và Claude Opus đặc biệt xuất sắc trong lập trình
Gemini cũng gần đạt mức rất tốt, nhưng vẫn chưa bằng Claude
Mỗi tháng tôi luân phiên đăng ký ChatGPT Plus ↔ Gemini Pro ↔ Claude để không bỏ lỡ thế mạnh của từng mô hình
Với tư cách là cựu nhân viên Google, tôi hy vọng Gemini 3.1 Pro sẽ tốt hơn 3.0
Nhưng với mục đích phát triển, Gemini là mô hình gây ức chế nhất
Claude Opus trong VS Code Copilot cân bằng tốt giữa mạch suy nghĩ và câu trả lời, còn Gemini chỉ dùng thinking token mà không giải thích kết quả
Nó thường mắc kẹt trong vòng lặp, dùng công cụ cũng vụng, và sửa nhầm file
Vì thế tôi từng dùng chiến lược “lập kế hoạch bằng Gemini, thực thi bằng Claude”, nhưng cuối cùng lại chỉ dùng Claude
Trong khi Anthropic dường như tinh chỉnh mô hình xoay quanh các dự án thực tế, Google có vẻ thiếu thử nghiệm trong sử dụng thực tế
- Dự án của tôi có nhiều phép toán không gian màu, và Gemini 3 Pro thường mắc lỗi kiểu dữ liệu cơ bản
  Nó nhầm int8 thành float, hoặc quên có chuẩn hóa hay không
  Cảm giác như đang làm việc với một người có trí nhớ kém
  Dù vậy, nó vẫn khá hữu ích khi thảo luận thiết kế kiến trúc
- Khi dùng Gemini 3 trên Openclaw, chi phí là 10~20 USD mỗi giờ, 1,5~3 USD cho mỗi prompt
  Đó là đỉnh cao của sự kém hiệu quả
- Hiệu năng của mô hình rốt cuộc phụ thuộc vào tinh chỉnh và tích hợp công cụ
  Claude tạo cảm giác như đã học cả chính “quy trình lập trình”, và Anthropic dường như đã phản ánh phản hồi người dùng vào việc tinh chỉnh
  Google vì theo đuổi mô hình đa dụng nên trông như đang ở trạng thái “cái gì cũng làm được một chút nhưng không thứ gì thật sự hoàn hảo”
- Gemini 3.0 với tôi ở mức không thể dùng được
  Claude hay Codex giải thích cách tiếp cận vấn đề, còn Gemini thì cứ thế làm luôn
  Nó phớt lờ yêu cầu chỉnh sửa và làm bẩn workspace
  Dù dùng miễn phí tôi cũng hầu như không dùng
  Có vẻ Anthropic đã sớm nhận ra rằng “người dùng phải có khả năng kiểm soát”
- Gemini yếu trong các tác vụ agentic
  OpenAI đã đuổi kịp tới mức Claude, nhưng Google thì vẫn còn xa
Mọi người đang đánh giá thấp hiệu quả chi phí của Google
Giá chỉ bằng một nửa Opus mà hiệu năng vẫn khá tốt
Theo chỉ số của Artificial Analysis, 3.1 rẻ hơn Opus 40% và nhanh hơn 30%
- Nhưng cũng có quan điểm rằng “một câu trả lời xuất sắc giá 2 cent” tốt hơn “một câu trả lời tầm thường giá 1 cent”
  Nếu dùng để phát triển, thì ngay cả 300 USD một tháng cho mô hình tốt nhất cũng là xứng đáng
  Với AI tiêu dùng, phép tính này sẽ khác
- Tất nhiên, nếu không làm được việc cho ra hồn thì dù rẻ một nửa cũng vô nghĩa
  Dù vậy, nếu hiệu năng theo kịp thì sức cạnh tranh về giá vẫn rất hấp dẫn
- Nếu Opus tạo ra code tốt hơn 20%, thì trong dự án thực tế khoảng cách đó là rất lớn
  Nhưng nếu hiệu năng tương đương, thì tiết kiệm 50% chi phí là một lợi thế lớn
- Gemini có điểm benchmark tốt, và các kỹ sư DeepMind cũng rất giỏi
  Cá nhân tôi thấy nó hoạt động tốt cả trong công việc lẫn coding sở thích
  Vậy mà cộng đồng lại chê rất nhiều, điều đó khiến tôi thấy khó hiểu
- Deepseek chỉ có giá bằng 2% của Opus, nhưng hầu hết mọi người vẫn không dùng nó cho coding
Các mô hình dạo này quá mạnh
So với trước đây, giờ có thể tạo ra phần mềm hoàn chỉnh trong thời gian ngắn hơn rất nhiều
Nhưng khác biệt hành vi giữa các phiên bản quá lớn, khiến tôi có cảm giác như mỗi tháng lại phải quản lý một đội mới
Mô hình có thể bị thay mà không báo trước hoặc thay đổi rất tinh vi, nên nó giống một nền tảng thiếu ổn định
- Opus 4.6 đã giải được một vấn đề mà trước đó o4-mini không xử lý nổi
  Có thể xem tại issue sqlite-chronicle
  Sau đó nó còn gỡ được nhiều điểm nghẽn trong các dự án khác
- Tôi đã dùng cả mô hình của Anthropic, Google và OpenAI, nhưng để làm ra một sản phẩm hoàn chỉnh thì vẫn chưa đủ
  Dù vậy, chúng đã đủ tốt để lấy ý tưởng và khởi tạo codebase
- Ứng dụng được tạo bằng GPT 5.1 codex max vẫn hoạt động tốt
  Có vẻ ngay cả với cùng một đoạn code, mô hình đã tạo ra nó sẽ dễ xử lý lại hơn, như có một dạng tính nhất quán nội tại
- Trên thực tế, cảm giác giống như đang quản lý một “kỹ sư thiên tài nhưng kỳ quặc”
  Dù vậy, đây vẫn là công nghệ đáng kinh ngạc
- Cũng có câu đùa đáp lại cách nói “thuê kỹ sư thiên tài cả tháng với giá một bữa sushi” rằng “rồi dùng nó để làm cái máy tính à?”
Giá của Gemini 3.1 Pro không thay đổi
Input là 2 USD/M, output là 12 USD/M, như ghi trong tài liệu chính thức
Mốc cắt kiến thức là tháng 1/2025, và có thêm chế độ “medium thinking”
So với mức 5/25 USD của Opus 4.6 thì chênh lệch giá là rất lớn
- Nếu muốn dùng CLI agent cho doanh nghiệp thì quy trình phức tạp của Google là một vấn đề
  Người dùng dễ mắc kẹt ở chỗ thiết lập quy tắc IAM, thanh toán, tìm đúng tên sản phẩm, v.v.
  OpenAI hay Anthropic đơn giản hơn nhiều
  Dù vậy, chi phí hàng tháng lại tương tự
- Nếu hiệu năng suy luận dài hạn trong Vendor-Bench 2 không cải thiện, tôi chưa định chuyển khỏi CC
  Anthropic đang dẫn trước nhờ tối ưu hóa full-stack
- Vẫn chưa có minimal reasoning
  Hiện vẫn chưa có mô hình nào như Opus 4.6 có thể tắt thinking mà vẫn nhanh và thông minh
- Trông có vẻ rẻ hơn Codex nên khá thú vị
- Mốc cắt kiến thức là tháng 1/2025 nên có cảm giác hơi cũ
Gemini 3 vẫn đang ở trạng thái preview, còn 2.5 sắp bị ngừng
Nhìn vào lịch ngừng hỗ trợ chính thức, có những mô hình còn bị kết thúc mà không có bản thay thế
Tôi tự hỏi bao giờ Google mới tung ra mô hình production thực sự
- Tôi cũng đồng ý. Dựa vào các mô hình bị ngừng hoặc chưa phát hành là rất rủi ro
  Tôi đang có hệ thống chạy thực tế nên cảm thấy rất bất an
- Có vẻ bạn đã đọc nhầm link. Chỉ 2.5-preview bị ngừng, còn 2.5 bản chính thức sẽ được duy trì tới mùa thu năm 2026
- Chẳng lẽ Google lại đi ngừng một phần mềm mà quá nhiều người đang phụ thuộc vào?
  Chỉ cần nhìn Killed by Google là biết câu đó vô nghĩa đến mức nào
- Chính những lúc như thế này mới thấy kiểu “à, đúng là rất Google”
- Hiện vẫn chưa có thông báo ngừng 2.5
  Nếu 3.0 còn là preview, thì 2.5 có lẽ sẽ được giữ ít nhất 1 năm nữa
  Trong tài liệu chính thức cũng ghi rõ rằng “ngày kết thúc chính xác sẽ được thông báo trước”
Gemini đã giải quyết gọn trong một lần vấn đề race condition giữa UI và đồng bộ dữ liệu
Ngay cả Opus 4.6 cũng phải tới lần thử thứ ba mới xử lý được, nên điều đó khiến tôi bất ngờ
Nó bớt dài dòng hơn trước và đi thẳng vào trọng tâm hơn
Có lẽ sắp tới tôi sẽ dùng chiến lược: Gemini cho R&D, Opus/Sonnet 4.6 để hoàn thiện
- Bộ kết hợp của tôi là dùng Opus 4.6 để nghiên cứu code, GPT 5.3 codex để viết code, Gemini cho các thuật toán khoa học và toán học, Grok để xử lý câu hỏi liên quan đến bảo mật
  Nếu dùng một wrapper hợp nhất hỗ trợ nhiều mô hình thì sẽ bớt phải đau đầu chọn mô hình
  Cuối cùng, điều quan trọng vẫn là “mô hình nào phù hợp nhất với vấn đề của tôi”
Gemini đã trả lời hoàn hảo cho “câu hỏi tiệm rửa xe”
Nó đưa ra câu trả lời logic kiểu như “nếu đi bộ thì sẽ không có xe để rửa, nên phải lái xe tới”
- Có thể câu hỏi đó đã nằm trong dữ liệu huấn luyện, nên tôi thử đổi thành câu hỏi rửa voi
  Gemini giải thích một cách logic rằng “phải đưa con voi đi”, kèm cả lý do chi tiết
  Đó là khả năng suy luận khá ấn tượng
- GPT-OSS-120b cũng trả lời đúng cùng câu hỏi đó
  Tuy nhiên, câu kiểu Gemini nói thêm về “dự báo trời mưa sau khi rửa xe” thì dễ thương nhưng lại hơi giống tự tin quá mức
- Điều quan trọng không phải chỉ là trả lời đúng, mà là nó có suy luận đúng lý do hay không
- Thực ra Gemini 3 Pro và Flash trước đó cũng đã trả lời đúng câu hỏi này rồi
- Nhưng câu trả lời lại quá dài dòng, thành ra gây mệt
Trong bài test “SVG chim bồ nông đi xe đạp”, Gemini cho ra kết quả tốt
Có thể xem tại link kết quả
Có lẽ nhờ điểm ARC-AGI tăng mà khả năng tạo sinh thị giác của nó cũng được cải thiện
- SVG động giờ đã được đưa vào như ví dụ mặc định
  Bản thân benchmark này đã mất ý nghĩa, giờ có vẻ trở thành câu chuyện gu thẩm mỹ
  Có lẽ cần một benchmark ‘vibe check’ mới
- Kết quả tôi nhận được lại mang phong cách 3D hơn là chim bồ nông
  Đây là một thay đổi thú vị
- Nhưng benchmark SVG cá nhân của tôi (mặt cắt ngang tim người) thì nó vẫn thất bại
  Cuối cùng vẫn cần tới bàn tay của nhà thiết kế con người
- Nếu mô hình tiếp tục tiến bộ, có lẽ sau này còn có thể tạo UI thời gian thực hoặc media tương tác dựa trên SVG
- Ngược lại, các định dạng vector khác như PostScript thì gần như không có tiến triển gì
  Có lẽ đó là kết quả của việc Google tối ưu hóa tập trung vào SVG
SVG chim bồ nông được đăng trên blog của Simon Willison khá ấn tượng, nhưng mất hơn 5 phút để tạo
Có vẻ đây là vấn đề hiệu năng ở giai đoạn đầu phát hành
- Vấn đề của Gemini lúc nào cũng là thái độ “muốn giúp quá đà”
  Tôi chỉ muốn chim bồ nông và xe đạp thôi, nhưng nó còn thêm cả mây, mặt trời và mũ
  Trong coding cũng vậy, nó không chịu ngừng refactor không mong muốn và thêm chú thích linh tinh
- Điều buồn cười là chính những bài test kiểu này lại khiến Google thực sự đổ rất nhiều công sức vào tạo SVG động vật + phương tiện
  Tweet của Jeff Dean cũng ngụ ý điều đó
- Tôi thắc mắc vì sao LLM lại giỏi SVG đến vậy
  Những dạng hiểu biết không gian khác thì yếu, nhưng lại xuất sắc trong việc tạo hình học chính xác
- Có lẽ sắp tới các mô hình sẽ cạnh tranh benchmark bằng “tạo SVG chim bồ nông đi xe đạp”
- Nếu xem bài đăng chính thức trên blog Google, SVG generation được nhắc đến như một use case quan trọng
  Tức là đây có thể không phải cải thiện năng lực chung, mà là kết quả của huấn luyện có chủ đích

clumsily 2026-02-20

Có lẽ chẳng bao lâu nữa hiệu năng sẽ lại bị âm thầm nerf, và điều quan trọng nhất chắc là sẽ bị nerf đến mức nào. (Dù đúng là phần lớn các mô hình AI đều có cảm giác càng về sau càng ngốc đi, nhưng Google thì đặc biệt nghiêm trọng hơn hẳn.)
Tôi nhớ là ngay sau khi 3 Pro mới ra mắt thì nó khá tốt, nhưng khoảng một tuần sau tự nhiên lại trở nên ngốc hẳn nên cuối cùng tôi đã bỏ dùng.