Gemini 3 - Google công bố mô hình AI Gemini mới nhất

(blog.google)

19 điểm bởi GN⁺ 2025-11-19 | 3 bình luận | Chia sẻ qua WhatsApp

Google công bố Gemini 3, mô hình AI thông minh nhất của hãng, mang đến khả năng suy luận và hiểu đa phương thức được cải thiện
Gemini 3 Pro đạt hiệu năng tốt nhất trên mọi benchmark chính so với thế hệ trước, đồng thời xử lý nhiều loại đầu vào như văn bản, hình ảnh, video và mã nguồn
Chế độ Deep Think bổ sung năng lực suy luận nâng cao để giải quyết các vấn đề phức tạp, sẽ được triển khai dần cho người dùng Ultra
Gemini 3 hỗ trợ toàn diện cho học tập, phát triển và lập kế hoạch, có thể sử dụng trên Google Search, ứng dụng Gemini, AI Studio, Vertex AI và nhiều nơi khác
Google đang tăng tốc quá trình chuyển sang kỷ nguyên tác nhân thông minh và AI cá nhân hóa thông qua Gemini 3

Tổng quan về Gemini 3

Gemini 3 là mô hình AI thông minh nhất do Google phát triển, hỗ trợ người dùng hiện thực hóa bất kỳ ý tưởng nào
Kết hợp hiểu đa phương thức với lập trình tác nhân (Agentic Coding) để xử lý tích hợp nhiều loại đầu vào như văn bản, hình ảnh, video, âm thanh và mã nguồn
Gemini 3 Pro có thể được sử dụng trên toàn bộ hệ sinh thái Google như AI Studio, Vertex AI, ứng dụng Gemini, nền tảng Google Antigravity
Chế độ Deep Think hỗ trợ giải quyết vấn đề phức tạp bằng khả năng suy luận nâng cao và sẽ được cung cấp cho người đăng ký Google AI Ultra

Thông điệp từ CEO

Sundar Pichai cho biết sau 2 năm kể từ khi dự án Gemini bắt đầu, Google đã đạt được các thành tựu như 2 tỷ người dùng hàng tháng của AI Overviews, 650 triệu người dùng ứng dụng Gemini và hơn 130.000 nhà phát triển tham gia
Cấu trúc đổi mới AI full-stack của Google (hạ tầng–nghiên cứu–mô hình–sản phẩm) giúp công nghệ được phổ biến nhanh chóng
Gemini 3 là mô hình tích hợp các năng lực đa phương thức, suy luận và tác nhân của thế hệ trước, giúp hiểu ý định và ngữ cảnh của người dùng chính xác hơn
Gemini 3 được phát hành đồng thời trên AI Mode của Search, ứng dụng Gemini, AI Studio, Vertex AI và Google Antigravity

Hiệu năng của Gemini 3 Pro

Gemini 3 Pro ghi nhận hiệu năng vượt trội trên mọi benchmark AI chính so với 2.5 Pro
- Đạt 1501 Elo trên bảng xếp hạng LMArena, 37.5% trên Humanity’s Last Exam, 91.9% trên GPQA Diamond và 23.4% trên MathArena Apex
- Ghi nhận 81% trên benchmark đa phương thức MMMU-Pro, 87.6% trên Video-MMMU và 72.1% trên SimpleQA Verified
Cung cấp câu trả lời chính xác và ngắn gọn, có thể dùng để trực quan hóa các khái niệm khoa học hoặc cụ thể hóa các ý tưởng sáng tạo
Ví dụ: có thể tạo mã trực quan hóa dòng plasma trong tokamak hoặc sáng tác thơ về vật lý nhiệt hạch

Gemini 3 Deep Think

Chế độ Deep Think nâng cao hơn nữa năng lực suy luận và hiểu đa phương thức của Gemini 3
- Đạt hiệu năng hàng đầu với 41.0% trên Humanity’s Last Exam, 93.8% trên GPQA Diamond và 45.1% trên ARC-AGI-2
Chứng minh khả năng suy luận nâng cao cho việc giải quyết vấn đề phức tạp và các thách thức mới

Học tập (Learn anything)

Gemini 3 hỗ trợ học tập bằng cửa sổ ngữ cảnh 1 triệu token và suy luận đa phương thức
- Dịch công thức viết tay và tạo sách nấu ăn số
- Tóm tắt các bài giảng, bài báo dài và tạo flashcard tương tác hoặc mã trực quan hóa
- Tạo kế hoạch huấn luyện cá nhân hóa thông qua phân tích video thể thao
AI Mode của Google Search, dựa trên Gemini 3, tạo bố cục hình ảnh sống động và công cụ tương tác theo thời gian thực

Phát triển (Build anything)

Gemini 3 mạnh về tạo sinh zero-shot và xử lý prompt phức tạp, đạt 1487 Elo trên WebDev Arena
- Đạt 54.2% trên Terminal-Bench 2.0 và 76.2% trên SWE-bench Verified, cải thiện hiệu năng sử dụng công cụ và tác nhân lập trình
Có thể phát triển trên Google AI Studio, Vertex AI, Gemini CLI, Google Antigravity
Cũng được hỗ trợ trên các nền tảng bên thứ ba như Cursor, GitHub, JetBrains, Manus, Replit

Google Antigravity: môi trường phát triển lấy tác nhân làm trung tâm

Google Antigravity là nền tảng phát triển tác nhân dựa trên Gemini 3, cho phép nhà phát triển cộng tác với AI ở cấp độ tập trung vào công việc
Tác nhân có thể truy cập trực tiếp vào editor, terminal và trình duyệt để tự động viết mã, chạy và kiểm thử
Tích hợp Gemini 3 Pro, mô hình Gemini 2.5 Computer Use và mô hình chỉnh sửa hình ảnh Nano Banana
Ví dụ: triển khai quy trình làm việc nơi tác nhân tự thiết kế, viết mã và kiểm thử ứng dụng theo dõi chuyến bay

Lập kế hoạch (Plan anything)

Gemini 3 tăng cường năng lực lập kế hoạch dài hạn, đạt hạng 1 trên bảng xếp hạng Vending-Bench 2
- Duy trì khả năng ra quyết định ổn định trong suốt 1 năm khi vận hành một doanh nghiệp máy bán hàng tự động mô phỏng
Có thể tự động hóa các tác vụ nhiều bước phức tạp như sắp xếp email, đặt chỗ dịch vụ
Người đăng ký Ultra có thể trải nghiệm trực tiếp trong ứng dụng Gemini thông qua tính năng Gemini Agent

Phát triển có trách nhiệm

Gemini 3 là mô hình an toàn nhất trong các AI của Google, với khả năng chống prompt injection và phòng thủ trước tấn công mạng được tăng cường
Tiến hành thử nghiệm nội bộ và đánh giá từ chuyên gia bên ngoài theo Frontier Safety Framework
- Có sự tham gia của các tổ chức như UK AISI, Apollo, Vaultis, Dreadnode
Công bố chi tiết kết quả đánh giá an toàn trong thẻ mô hình Gemini 3

Khởi đầu kỷ nguyên Gemini 3

Gemini 3 bắt đầu được triển khai qua các kênh sau
- Ứng dụng Gemini và AI Mode của Search
- Quyền truy cập cho nhà phát triển thông qua AI Studio, Google Antigravity, Gemini CLI
- Triển khai cho doanh nghiệp thông qua Vertex AI và Gemini Enterprise
Chế độ Deep Think sẽ được cung cấp cho người đăng ký Ultra sau khi hoàn tất các bước kiểm chứng an toàn bổ sung
Google cũng dự kiến công bố thêm các mô hình trong dòng Gemini 3 trong tương lai và mở rộng dựa trên phản hồi của người dùng

3 bình luận

t7vonn 2025-11-19

Đỉnh thật luôn

GN⁺ 2025-11-19

Ý kiến trên Hacker News

Tôi đã đưa ứng dụng máy tính dựa trên XML cũ vào Gemini, và nó tạo ra một web app hoàn chỉnh trong chưa đầy 1 phút
Tôi đã tự xây dựng một trình biên dịch để chuyển XML tùy chỉnh sang ứng dụng Android/Swing suốt nhiều năm, vậy mà Gemini làm được điều đó mà không cần cả phần mô tả định dạng
Khi thử với Lovable thì ứng dụng không chạy đúng và chỉ làm tốn credit, còn lần này thì ở một đẳng cấp hoàn toàn khác
Link kết quả
Tôi đã thử đưa bài toán Project Euler mới nhất (#970) cho Gemini. Khả năng cao là nó không có trong dữ liệu huấn luyện, nhưng sau 5 phút 10 giây suy nghĩ thì nó đưa ra mã Python cho đáp án đúng
Thời gian giải của 3 người nhanh nhất lần lượt là 14 phút, 20 phút và 1 giờ 14 phút
Tôi cũng đoán những dạng bài thế này là lĩnh vực mà model đã được tinh chỉnh bằng RL, nhưng việc nó giải xong một bài mà bình thường phải mất vài ngày chỉ trong vài phút vẫn rất đáng kinh ngạc
- Tôi cũng thử giải cùng bài đó bằng Gemini 3 Pro Preview, và nó cho kết quả sau 4 phút 31 giây nhưng lại sai
  Dù tôi đã cấm tìm kiếm web, nó vẫn trả về 8 “nguồn” như stackexchange, youtube, v.v.
  Dù vậy, phần lớn nhận định của nó là đúng và vẫn là một công cụ khá hữu ích
  Link prompt
- Tôi đã thử lại bài low trên Kattis mà trước đây vẫn dùng để kiểm tra, và lần đầu tiên LLM đã vượt qua
  Từ sau ChatGPT đến nay chưa model nào giải được, và cuối cùng Gemini 3 đã thành công
- Điểm Elo cao của model có thể đơn giản là nhờ tốc độ
  Nhưng nhìn vào các kết quả kiểu này, tôi nghĩ trong vòng 10 năm nữa sẽ có AI cấp độ Stockfish cho các bài toán đố
- Nhân tiện, bài mới nhất hiện tại là Project Euler #970
- Tôi thử bằng gpt-5.1 thinking thì nó chỉ lên mạng tìm luôn đáp án 😅
Tôi đã đưa prompt widget đồng hồ analog từng thử với Flash 2.5 vào Gemini 3 Pro Preview, và nhận được kết quả chạy hoàn hảo ngay từ lần đầu
Link kết quả
- Flash 2.5 cũng khá ổn. Nó tạo cho tôi một đồng hồ UNIX theo hệ mét, biểu diễn giây bằng kilogiây (kiloseconds)
  Một ngày là 86.4ks, và hiện tại là khoảng 1.76 gigagiây kể từ mốc AUNIX. Tôi muốn một ngày nào đó làm một chiếc đồng hồ vật lý cao 20 foot
- Không có animation “wiggle” khi kim giây chạm số 12 nên tôi không chấp nhận được 😂
- Dự án này là một ví dụ nằm trong khóa 30 Days of JavaScript của Wes Bos, nên rất có thể đã có trong dữ liệu huấn luyện
- Tôi đã thêm vài cải tiến vào đây, nhưng chỉ có tiếng tick là đến lần thử thứ hai mới thành công
  Link bản cải tiến
- Prompt của người khác thì đơn giản hơn nhiều. Cái tôi vốn dùng chỉ là dạng tạo HTML/CSS có chứa biến ${time}, và Gemini đã làm hỏng hoàn toàn
  Link ví dụ thất bại
Tôi đã tổng hợp lại kết quả của mình về benchmark Pelican và phiên bản độ khó cao mới
Bài blog
- Giờ có lẽ mỗi phòng lab sẽ có một “người phụ trách pelican” riêng. Chắc họ đang huấn luyện ngày đêm để vẽ pelican đi xe đạp bằng SVG cho đẹp hơn
- Họ đã huấn luyện pelican suốt nhiều tháng, mà tôi vừa đổi benchmark là mục tiêu lại thay đổi luôn 😂
- Rất có thể “pelican đi xe đạp” đã nằm sẵn trong dữ liệu huấn luyện
- Người ta nói không có vấn đề bão hòa, nhưng nhìn kết quả thì có vẻ các lab lớn đã âm thầm leo đồi pelican suốt thời gian qua
- Khá tiếc là mốc cắt kiến thức của Gemini 3 là tháng 1/2025, giống với 2.5
  Có thể họ dùng cùng base model và chỉ cải thiện tinh chỉnh RL
Gemini 3 Pro Preview đã thất bại hoàn toàn trên benchmark Python cơ bản của tôi
Gemini 2.5 Pro thì đến gần hơn một chút nhưng vẫn sai
Trong khi đó gpt-5.1-thinking, Claude Sonnet 4.5 và Opus 4.1 đều vượt qua
Những chuyện như vậy lại khiến tôi cảm thấy benchmark không phải thước đo tuyệt đối
- Nói “benchmark là vô nghĩa” thì hơi quá. Nó có giới hạn nhưng vẫn là chỉ số hữu ích
  Nếu đó là một bài Python “cơ bản” mà GPT-5 thinking còn trượt thì tôi khá tò mò nó là bài gì
- Rất khó tin tưởng vào kết luận rút ra từ một benchmark cá nhân duy nhất. Nếu chia sẻ ra thì mọi người có thể cùng kiểm chứng
- Tôi thường test bằng bài “tạo game Pac-Man trong một trang HTML duy nhất”. Gemini 3 cũng thất bại tương tự 2.5
- Ý nghĩa của benchmark phụ thuộc vào chất lượng thiết kế của nó. Không thể chỉ đánh giá dựa trên việc có công khai hay không
- Trong điểm số SWEBench do Google công bố, Gemini 3 Pro thấp hơn Claude Sonnet 4.5. Tôi cũng tò mò liệu Opus 4.5 có làm tốt hơn không
Khi xử lý một vấn đề liên quan đến y tế, Gemini 2.5 Pro chỉ đúng khoảng một nửa, còn Gemini 3.0 thì giải quyết hoàn hảo
Nó còn sắp xếp hợp lý các quy định liên quan, nghiên cứu và quy trình phê duyệt, nên thực sự giúp ích cho việc ra quyết định
Những model như thế này thật sự có thể thay đổi cuộc sống của con người
Tôi thấy rất buồn cười khi bài công bố của Google có nút “Đọc bản tóm tắt do AI tạo”
Bước tiếp theo chắc là “hãy để AI của chúng tôi đọc bản tóm tắt AI của bạn”
Cuối cùng có khi mọi niềm tin cũng được tự động hóa, đúng kiểu Electric Monk của Douglas Adams
- Tôi cũng từng muốn đặt tên một dự án AI ở công ty là Electric Monk, nhưng vì quá dễ gây tranh cãi nên đã đổi thành Electric Mentor
- Liên quan chuyện này thì truyện tranh SMBC rất hợp
- Giờ mà AI tự động hóa luôn cả việc xử lý sự cố cloud thì tốt quá
- Có vẻ ngày mà AI thay thế không chỉ lập trình viên mà cả vai trò quản lý cũng không còn xa nữa
Benchmark tôi thích là tóm tắt file audio cuộc họp dài và phân biệt người nói
Gemini 2.5 tóm tắt khá ổn nhưng nhận diện người nói rất tệ, còn 3.0 thì làm đúng hoàn hảo
- Tôi đã thử với một podcast dài 90 phút, nhưng Gemini 3 lại tạo ra trích dẫn bịa đặt và timestamp cũng sai hết
  Với audio dài thì nó vẫn còn hạn chế
- Dùng model audio chuyên dụng như ElevenLabs hay Soniox sẽ chính xác hơn nhiều
- Tôi tò mò bạn dùng prompt nào
- Tôi cũng đang làm một dự án phân biệt người nói trong podcast, và nó hoạt động khá tốt
- Parakeet TDT v3 có vẻ rất phù hợp cho loại tác vụ này
Trong bài test ảnh chó có 5 chân do tôi tạo ra, Gemini 3 cũng thất bại
Dù vậy, khác với các model khác, nó có nhận ra chân thứ năm nhưng lại nhầm nó với bộ phận cơ thể khác
Nhận thức thị giác vẫn là một bài toán lớn
- Tri giác (perception) là lĩnh vực mà tiến hóa đã mài giũa suốt hàng tỷ năm, nên về mặt tính toán nó khó hơn rất nhiều
- Có lẽ kiểu nhận diện sai như vậy là do điểm mù của bộ lọc an toàn

nullptr 2025-11-19

Hiện tại có thể dùng miễn phí trên Antigravity ( https://antigravity.google/pricing ), bản fork VSCode OSS do Google phát hành.
Ngoài ra, có vẻ như trong gemini-cli hiện tại chỉ dùng được AI Ultra (360.000 won/tháng).