- Mô hình AI đa phương thức nâng cao để xử lý các tác vụ phức tạp, hướng tới giải quyết vấn đề vượt ra ngoài việc chỉ đưa ra câu trả lời đơn giản
- Đạt điểm xác thực 77.1% trên benchmark ARC-AGI-2, đạt hiệu năng suy luận hơn gấp đôi so với 3 Pro trước đó
- Thể hiện năng lực suy luận được cải thiện trong các tác vụ khó như tích hợp dữ liệu, giải thích trực quan, lập trình sáng tạo
- Xử lý nhiều dạng đầu vào khác nhau như văn bản, âm thanh, hình ảnh, video, kho mã nguồn, đồng thời hỗ trợ ngữ cảnh tối đa 1 triệu token và đầu ra 64K token
- Google đang sử dụng bản preview này để nâng cao quy trình làm việc agentic và xác minh trước khi phát hành rộng rãi trong tương lai
Tổng quan về Gemini 3.1 Pro
- Gemini 3.1 Pro là mô hình AI đa phương thức nâng cao để xử lý các tác vụ phức tạp, hướng tới giải quyết vấn đề vượt ra ngoài việc chỉ đưa ra câu trả lời đơn giản
- Google mô tả đây là bản nâng cấp trí tuệ cốt lõi đã giúp tạo nên thành quả của Gemini 3 Deep Think
- Xử lý đầu vào đa phương thức như văn bản, âm thanh, hình ảnh, video và kho mã nguồn
- Hỗ trợ cửa sổ ngữ cảnh tối đa 1 triệu token và đầu ra 64K token
- Phiên bản này đang được triển khai dần trên toàn bộ các sản phẩm dành cho người dùng, nhà phát triển và doanh nghiệp
- Các kênh triển khai gồm
Hiệu năng và benchmark
- Gemini 3.1 Pro được tối ưu cho giải quyết vấn đề phức tạp thông qua các cải tiến tập trung vào năng lực suy luận (reasoning)
- Ghi nhận điểm xác thực 77.1% trên benchmark ARC-AGI-2, cải thiện hiệu năng hơn gấp đôi so với 3 Pro trước đó
- Kết quả so sánh hiệu năng chính (so với Gemini 3 Pro):
- ARC-AGI-2: 77.1% (vs 31.1%)
- GPQA Diamond: 94.3% (vs 91.9%)
- Terminal-Bench 2.0: 68.5% (vs 56.9%)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85.9% (vs 59.2%)
- Các benchmark này đánh giá khả năng của mô hình trong việc giải quyết những mẫu logic hoàn toàn mới
- Google định nghĩa đây là một “mô hình nền tảng thông minh và có năng lực hơn”, được xem là nền tảng cho giải quyết vấn đề phức tạp
Các trường hợp sử dụng thực tế
- Gemini 3.1 Pro cho thấy nhiều khả năng ứng dụng đa dạng bằng cách đưa suy luận nâng cao vào hình thức thực tiễn
- Tạo giải thích trực quan: khả năng giải thích các chủ đề phức tạp một cách rõ ràng và trực quan
- Tích hợp dữ liệu: tổng hợp nhiều nguồn dữ liệu thành một góc nhìn thống nhất
- Triển khai dự án sáng tạo: hiện thực hóa các ý tưởng nghệ thuật và thiết kế bằng mã
- Ví dụ cụ thể
- Hoạt họa dựa trên mã: tạo SVG animation cho website từ prompt văn bản, giảm kích thước tệp xuống mức tối thiểu mà không mất độ phân giải
- Tích hợp hệ thống phức tạp: xây dựng dashboard trực quan hóa quỹ đạo của Trạm Vũ trụ Quốc tế (ISS) theo thời gian thực
- Thiết kế tương tác: lập trình mô phỏng đàn chim sáo đá 3D để triển khai giao diện theo dõi tay và phản ứng với âm nhạc
- Lập trình sáng tạo: thiết kế website portfolio hiện đại phản ánh bầu không khí văn chương của
Wuthering Heights
Triển khai và truy cập
- Gemini 3.1 Pro đang được phát hành dưới dạng preview để thu thập phản hồi từ người dùng
- Người dùng gói Google AI Pro và Ultra có thể sử dụng giới hạn cao hơn trong ứng dụng Gemini
- Trên NotebookLM, chỉ cung cấp độc quyền cho người dùng Pro và Ultra
- Nhà phát triển và doanh nghiệp có thể truy cập qua AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio
Kế hoạch sắp tới
- Sau khi phát hành Gemini 3 Pro, Google vẫn duy trì tốc độ cải tiến nhanh và đang thúc đẩy xác minh các bản cập nhật cũng như mở rộng quy trình làm việc agentic thông qua bản preview 3.1 Pro lần này
- Bản phát hành rộng rãi (GA) sẽ được tiến hành sau khi hoàn tất xác minh; Google cho biết họ “mong chờ xem người dùng sẽ tạo ra và khám phá điều gì với mô hình này”
4 bình luận
Mong là hiệu năng lập trình sẽ sớm bắt kịp Claude Opus.
Đúng vậy. Ngày đầu tiên dùng bản preview 3.0 khi nó được đưa lên CLI, tôi đã thích đến mức còn viết cả bài blog chia sẻ cảm nhận nữa, nhưng rồi mọi thứ xuống dốc rất nhanh... Nhờ vậy mà hiện tại tôi chủ yếu dùng codex và claude code. Nhưng claude cũng hơi... Tôi đang tính xem thử 4.6 opus hay sonnet có ổn không, nếu không thì có lẽ sẽ chốt dùng codex cho việc viết code, còn gemini cho các công việc linh tinh khác..
Ý kiến trên Hacker News
Rất mong chờ Gemini 3.1 Pro
Đến giờ tôi gần như luôn nghiêng về phía Claude, và Claude Opus đặc biệt xuất sắc trong lập trình
Gemini cũng gần đạt mức rất tốt, nhưng vẫn chưa bằng Claude
Mỗi tháng tôi luân phiên đăng ký ChatGPT Plus ↔ Gemini Pro ↔ Claude để không bỏ lỡ thế mạnh của từng mô hình
Với tư cách là cựu nhân viên Google, tôi hy vọng Gemini 3.1 Pro sẽ tốt hơn 3.0
Nhưng với mục đích phát triển, Gemini là mô hình gây ức chế nhất
Claude Opus trong VS Code Copilot cân bằng tốt giữa mạch suy nghĩ và câu trả lời, còn Gemini chỉ dùng thinking token mà không giải thích kết quả
Nó thường mắc kẹt trong vòng lặp, dùng công cụ cũng vụng, và sửa nhầm file
Vì thế tôi từng dùng chiến lược “lập kế hoạch bằng Gemini, thực thi bằng Claude”, nhưng cuối cùng lại chỉ dùng Claude
Trong khi Anthropic dường như tinh chỉnh mô hình xoay quanh các dự án thực tế, Google có vẻ thiếu thử nghiệm trong sử dụng thực tế
Nó nhầm
int8thành float, hoặc quên có chuẩn hóa hay khôngCảm giác như đang làm việc với một người có trí nhớ kém
Dù vậy, nó vẫn khá hữu ích khi thảo luận thiết kế kiến trúc
Đó là đỉnh cao của sự kém hiệu quả
Claude tạo cảm giác như đã học cả chính “quy trình lập trình”, và Anthropic dường như đã phản ánh phản hồi người dùng vào việc tinh chỉnh
Google vì theo đuổi mô hình đa dụng nên trông như đang ở trạng thái “cái gì cũng làm được một chút nhưng không thứ gì thật sự hoàn hảo”
Claude hay Codex giải thích cách tiếp cận vấn đề, còn Gemini thì cứ thế làm luôn
Nó phớt lờ yêu cầu chỉnh sửa và làm bẩn workspace
Dù dùng miễn phí tôi cũng hầu như không dùng
Có vẻ Anthropic đã sớm nhận ra rằng “người dùng phải có khả năng kiểm soát”
OpenAI đã đuổi kịp tới mức Claude, nhưng Google thì vẫn còn xa
Mọi người đang đánh giá thấp hiệu quả chi phí của Google
Giá chỉ bằng một nửa Opus mà hiệu năng vẫn khá tốt
Theo chỉ số của Artificial Analysis, 3.1 rẻ hơn Opus 40% và nhanh hơn 30%
Nếu dùng để phát triển, thì ngay cả 300 USD một tháng cho mô hình tốt nhất cũng là xứng đáng
Với AI tiêu dùng, phép tính này sẽ khác
Dù vậy, nếu hiệu năng theo kịp thì sức cạnh tranh về giá vẫn rất hấp dẫn
Nhưng nếu hiệu năng tương đương, thì tiết kiệm 50% chi phí là một lợi thế lớn
Cá nhân tôi thấy nó hoạt động tốt cả trong công việc lẫn coding sở thích
Vậy mà cộng đồng lại chê rất nhiều, điều đó khiến tôi thấy khó hiểu
Các mô hình dạo này quá mạnh
So với trước đây, giờ có thể tạo ra phần mềm hoàn chỉnh trong thời gian ngắn hơn rất nhiều
Nhưng khác biệt hành vi giữa các phiên bản quá lớn, khiến tôi có cảm giác như mỗi tháng lại phải quản lý một đội mới
Mô hình có thể bị thay mà không báo trước hoặc thay đổi rất tinh vi, nên nó giống một nền tảng thiếu ổn định
Có thể xem tại issue sqlite-chronicle
Sau đó nó còn gỡ được nhiều điểm nghẽn trong các dự án khác
Dù vậy, chúng đã đủ tốt để lấy ý tưởng và khởi tạo codebase
Có vẻ ngay cả với cùng một đoạn code, mô hình đã tạo ra nó sẽ dễ xử lý lại hơn, như có một dạng tính nhất quán nội tại
Dù vậy, đây vẫn là công nghệ đáng kinh ngạc
Giá của Gemini 3.1 Pro không thay đổi
Input là 2 USD/M, output là 12 USD/M, như ghi trong tài liệu chính thức
Mốc cắt kiến thức là tháng 1/2025, và có thêm chế độ “medium thinking”
So với mức 5/25 USD của Opus 4.6 thì chênh lệch giá là rất lớn
Người dùng dễ mắc kẹt ở chỗ thiết lập quy tắc IAM, thanh toán, tìm đúng tên sản phẩm, v.v.
OpenAI hay Anthropic đơn giản hơn nhiều
Dù vậy, chi phí hàng tháng lại tương tự
Anthropic đang dẫn trước nhờ tối ưu hóa full-stack
Hiện vẫn chưa có mô hình nào như Opus 4.6 có thể tắt thinking mà vẫn nhanh và thông minh
Gemini 3 vẫn đang ở trạng thái preview, còn 2.5 sắp bị ngừng
Nhìn vào lịch ngừng hỗ trợ chính thức, có những mô hình còn bị kết thúc mà không có bản thay thế
Tôi tự hỏi bao giờ Google mới tung ra mô hình production thực sự
Tôi đang có hệ thống chạy thực tế nên cảm thấy rất bất an
2.5-previewbị ngừng, còn 2.5 bản chính thức sẽ được duy trì tới mùa thu năm 2026Chỉ cần nhìn Killed by Google là biết câu đó vô nghĩa đến mức nào
Nếu 3.0 còn là preview, thì 2.5 có lẽ sẽ được giữ ít nhất 1 năm nữa
Trong tài liệu chính thức cũng ghi rõ rằng “ngày kết thúc chính xác sẽ được thông báo trước”
Gemini đã giải quyết gọn trong một lần vấn đề race condition giữa UI và đồng bộ dữ liệu
Ngay cả Opus 4.6 cũng phải tới lần thử thứ ba mới xử lý được, nên điều đó khiến tôi bất ngờ
Nó bớt dài dòng hơn trước và đi thẳng vào trọng tâm hơn
Có lẽ sắp tới tôi sẽ dùng chiến lược: Gemini cho R&D, Opus/Sonnet 4.6 để hoàn thiện
Nếu dùng một wrapper hợp nhất hỗ trợ nhiều mô hình thì sẽ bớt phải đau đầu chọn mô hình
Cuối cùng, điều quan trọng vẫn là “mô hình nào phù hợp nhất với vấn đề của tôi”
Gemini đã trả lời hoàn hảo cho “câu hỏi tiệm rửa xe”
Nó đưa ra câu trả lời logic kiểu như “nếu đi bộ thì sẽ không có xe để rửa, nên phải lái xe tới”
Gemini giải thích một cách logic rằng “phải đưa con voi đi”, kèm cả lý do chi tiết
Đó là khả năng suy luận khá ấn tượng
Tuy nhiên, câu kiểu Gemini nói thêm về “dự báo trời mưa sau khi rửa xe” thì dễ thương nhưng lại hơi giống tự tin quá mức
Trong bài test “SVG chim bồ nông đi xe đạp”, Gemini cho ra kết quả tốt
Có thể xem tại link kết quả
Có lẽ nhờ điểm ARC-AGI tăng mà khả năng tạo sinh thị giác của nó cũng được cải thiện
Bản thân benchmark này đã mất ý nghĩa, giờ có vẻ trở thành câu chuyện gu thẩm mỹ
Có lẽ cần một benchmark ‘vibe check’ mới
Đây là một thay đổi thú vị
Cuối cùng vẫn cần tới bàn tay của nhà thiết kế con người
Có lẽ đó là kết quả của việc Google tối ưu hóa tập trung vào SVG
SVG chim bồ nông được đăng trên blog của Simon Willison khá ấn tượng, nhưng mất hơn 5 phút để tạo
Có vẻ đây là vấn đề hiệu năng ở giai đoạn đầu phát hành
Tôi chỉ muốn chim bồ nông và xe đạp thôi, nhưng nó còn thêm cả mây, mặt trời và mũ
Trong coding cũng vậy, nó không chịu ngừng refactor không mong muốn và thêm chú thích linh tinh
Tweet của Jeff Dean cũng ngụ ý điều đó
Những dạng hiểu biết không gian khác thì yếu, nhưng lại xuất sắc trong việc tạo hình học chính xác
Tức là đây có thể không phải cải thiện năng lực chung, mà là kết quả của huấn luyện có chủ đích
Có lẽ chẳng bao lâu nữa hiệu năng sẽ lại bị âm thầm nerf, và điều quan trọng nhất chắc là sẽ bị nerf đến mức nào. (Dù đúng là phần lớn các mô hình AI đều có cảm giác càng về sau càng ngốc đi, nhưng Google thì đặc biệt nghiêm trọng hơn hẳn.)
Tôi nhớ là ngay sau khi 3 Pro mới ra mắt thì nó khá tốt, nhưng khoảng một tuần sau tự nhiên lại trở nên ngốc hẳn nên cuối cùng tôi đã bỏ dùng.