Gemini 3 Pro: Biên giới mới của AI thị giác

(blog.google)

3 điểm bởi GN⁺ 2025-12-06 | 3 bình luận | Chia sẻ qua WhatsApp

Gemini 3 Pro là mô hình đa phương thức thế hệ mới, vượt xa giai đoạn nhận diện đơn thuần để thực hiện suy luận thị giác và không gian
Ghi nhận hiệu năng hàng đầu trên nhiều lĩnh vực như hiểu tài liệu, không gian, màn hình và video, đồng thời đạt đẳng cấp cao nhất trong các benchmark suy luận thị giác phức tạp
Trong hiểu tài liệu, mô hình cung cấp khả năng suy luận nâng cao như OCR chính xác và khôi phục cấu trúc (derendering), phân tích bảng biểu và biểu đồ nhiều bước
Trong hiểu không gian, màn hình và video, mô hình tăng cường khả năng tương tác với môi trường thực thông qua trỏ theo tọa độ, phân tích khung hình tốc độ cao và truy vết nguyên nhân trong video
Hỗ trợ hiểu thị giác chính xác và tự động hóa trong nhiều ngành như giáo dục, y tế, pháp lý và tài chính; nhà phát triển có thể điều chỉnh hiệu năng và chi phí bằng tham số media_resolution

Tổng quan về Gemini 3 Pro

Gemini 3 Pro là mô hình đã phát triển từ nhận diện đơn thuần sang suy luận thị giác và không gian, đồng thời là mô hình đa phương thức mạnh nhất do Google phát triển
- Ghi điểm cao nhất trên các benchmark mới nhất về hiểu tài liệu, không gian, màn hình và video
- Đạt mức hiệu năng cao nhất mới trong các bài kiểm tra suy luận thị giác phức tạp như MMMU Pro và Video MMMU

1. Hiểu tài liệu

Tài liệu thực tế thường pha trộn các yếu tố phi cấu trúc như hình ảnh, chữ viết tay, bảng và công thức; Gemini 3 Pro có thể nhận diện chính xác và cấu trúc hóa chúng
- Độ chính xác OCR và khả năng suy luận thị giác đã được cải thiện đáng kể
Thông qua chức năng derendering, có thể khôi phục tài liệu thị giác thành mã có cấu trúc như HTML, LaTeX, Markdown
- Chuyển sổ cái của thương nhân thế kỷ 18 thành bảng, hoặc tái dựng ảnh công thức thành mã LaTeX
- Tái hiện biểu đồ gốc của Florence Nightingale thành biểu đồ tương tác
Quảng cáo
Với khả năng suy luận tổng hợp, mô hình có thể phân tích từng bước bảng và biểu đồ trong các báo cáo dài
- Trên benchmark CharXiv Reasoning, mô hình vượt chuẩn con người (80,5%)
- Trong ví dụ từ báo cáo của Cục Điều tra Dân số Hoa Kỳ, mô hình đã liên kết biến động chỉ số Gini với phân tích số liệu và chính sách để xác định chính xác nguyên nhân (kết thúc chính sách ARPA, chấm dứt trợ cấp kích thích kinh tế)
- Kết luận rằng tỷ trọng của nhóm thu nhập thấp nhất gồm 20% dân số đã tăng lên thông qua so sánh bảng

2. Hiểu không gian

Gemini 3 Pro là phiên bản có năng lực nhận thức không gian mạnh nhất, được tối ưu để hiểu thế giới vật lý
- Có thể chỉ ra chính xác vị trí cụ thể trong ảnh bằng đầu ra tọa độ theo đơn vị pixel
- Sử dụng các điểm 2D liên tiếp để thực hiện ước lượng tư thế cơ thể hoặc theo dõi quỹ đạo
Với khả năng tham chiếu open vocabulary, mô hình có thể nhận diện vật thể và ý định
- Có thể tạo kế hoạch dựa trên không gian cho robot với yêu cầu như “hãy phân loại rác trên chiếc bàn này”
- Hỗ trợ thực hiện chỉ dẫn trực quan trên thiết bị AR/XR như “hãy chỉ vào con ốc theo sách hướng dẫn sử dụng”

3. Hiểu màn hình

Có thể nhận diện chính xác màn hình hệ điều hành desktop và mobile để hỗ trợ tự động hóa thao tác máy tính
- Ứng dụng trong tự động hóa tác vụ lặp lại, kiểm thử QA, onboarding người dùng và phân tích UX
- Nhận diện các thành phần UI và xác định chính xác vị trí cần nhấp
Quảng cáo

4. Hiểu video

Video là dạng dữ liệu phức tạp nhất, và Gemini 3 Pro có thể phân tích với tốc độ cao và độ chính xác cao
- Xử lý tốc độ khung hình cao (>1 FPS) để nhận diện chuyển động nhanh, cho phép phân tích chuyển động tinh vi như cú swing golf
- Khi xử lý ở 10 FPS, mô hình có thể nắm bắt cả sự chuyển trọng tâm và các chi tiết động tác trong cú swing
Chế độ Thinking mở rộng từ nhận diện đối tượng đơn thuần sang suy luận video dạng truy vết nguyên nhân - kết quả
- Không chỉ hiểu “điều gì” đã xảy ra mà còn hiểu “vì sao”
Có thể phân tích video dài để chuyển thành mã ứng dụng hoặc thông tin có cấu trúc, tăng cường liên kết giữa video và mã

5. Lĩnh vực ứng dụng thực tế

Giáo dục: nâng cao năng lực giải quyết bài toán dựa trên biểu đồ trong toán học và khoa học
- Xử lý các bài toán suy luận đa phương thức từ bậc trung học đến đại học
- Phân tích các câu đố toán học trực quan như [Math Kangaroo] và các sơ đồ hóa học, vật lý phức tạp
- Kết hợp với [Nano Banana Pro] để đánh dấu trực quan lỗi trong bài làm của học sinh
Quảng cáo
Y tế và khoa học sự sống: đạt hiệu năng cao nhất trên các benchmark hình ảnh y khoa như MedXpertQA-MM, VQA-RAD, MicroVQA
- Ứng dụng trong hỏi đáp ảnh chẩn đoán hình ảnh và nghiên cứu sinh học dựa trên kính hiển vi
Pháp lý và tài chính: hỗ trợ tự động hóa xử lý tài liệu chuyên môn bằng cách phân tích bảng và biểu đồ trong các báo cáo, hợp đồng phức tạp

6. Kiểm soát độ phân giải phương tiện

Cải thiện chất lượng bằng cách giữ nguyên tỷ lệ khung hình gốc khi xử lý đầu vào thị giác
Có thể điều chỉnh cân bằng giữa hiệu năng và chi phí bằng tham số media_resolution
- High resolution: phù hợp cho OCR chi tiết và hiểu tài liệu phức tạp
- Low resolution: tối ưu chi phí và độ trễ khi nhận diện cảnh hoặc xử lý ngữ cảnh dài
Có thể xem thiết lập chi tiết trong [Gemini 3.0 Documentation Guide]

Truy cập cho nhà phát triển

Gemini 3 Pro có thể được thử nghiệm trực tiếp trên Google AI Studio, và
thông qua tài liệu dành cho nhà phát triển, Google hỗ trợ tích hợp API và khai thác mô hình

3 bình luận

y15un 2025-12-06

Mọi thứ đều tốt, nhưng tôi mong họ sửa việc cứ tự chèn video YouTube trái với chỉ dẫn của người dùng. Cứ đang trả lời thì lại tự phát làm đứt mạch tập trung, nên tôi đã cấm video trong personal context rồi mà thỉnh thoảng nó vẫn phớt lờ và nhét video vào. Bực thật...

colus001 2025-12-08

Tôi chỉ bảo nó tạo cho tôi một danh sách thôi mà tự dưng nó lại bảo kết nối với Google Drive cơ chứ lol

GN⁺ 2025-12-06

Ý kiến trên Hacker News

Trong bài kiểm tra ảnh LLM do tôi tạo, lần đầu tiên đã xuất hiện một mô hình được điểm phần nào
Bài test là đếm số chân của một con chó có 5 chân, nhưng hầu hết các LLM đều khăng khăng nói là 4
GPT-5 thậm chí còn tự viết một script phát hiện cạnh để tìm ranh giới giữa “bàn chân chó màu vàng óng” và “cỏ xanh sáng”, rồi cố chứng minh là 4, nhưng khi thực sự tìm ra 5 thì lại bảo đó là bug và chỉnh độ nhạy
Gemini 3 lúc đầu cũng đếm sai số chân, nhưng lại nhận ra “cấu trúc giải phẫu nam giới” trong bức ảnh. Tức là cái chân thứ 5 nằm ở vị trí đó
Dù vậy thì vẫn khó mà gọi là ấn tượng
Nhân tiện, image slicer của Meta đã nhận ra chính xác 5 cái chân. Tất cả những con chó nhiều chân đều được tạo bằng nano-banana
- Tôi cũng bảo Gemini thử tạo ảnh một con chó có 5 chân, nhưng nó không làm được. Thường thì nó tạo chó bình thường hoặc biến cái đuôi thành một phụ kiện kỳ quặc
  Tôi bảo Gemini và Grok đếm số chân thì cả hai đều khăng khăng là 4
  Khi tôi nói Grok sai, nó rơi vào khủng hoảng bản thể luận, rồi cuối cùng kết luận rằng “đây là một bức ảnh ảo giác nổi tiếng, trông như chó không đầu nhưng thực ra chỉ có ba chân”
  Mấy bài test kiểu này luôn kéo tôi về thực tại mỗi khi tôi bắt đầu cảm thấy LLM thật sự ‘thông minh’
- Tôi không phải chuyên gia AI, nhưng có một bài kiểm tra ảnh mê cung mà mọi mô hình đều thất bại
  Nếu bảo LLM vẽ đường đi tối ưu thì tất cả đều thất bại
  Đây là kết quả của Nano Banana: liên kết bài test
- Tôi thấy những bài test kiểu này giống một cách tiếp cận thiên lệch khi đánh giá LLM theo cách nhận thức của con người
  Ngoài việc chứng minh mô hình không suy nghĩ như con người thì cũng chẳng chứng minh được gì nhiều
  Tôi cũng tự hỏi prompt có nói rõ với mô hình rằng “hãy diễn giải bức ảnh này thật sát nghĩa” hay là được thiết kế với ý đồ cố tình đánh lừa
  Cũng không rõ tiêu chí thành công chỉ đơn giản là trả lời “5”, hay có tính cả ngữ cảnh hội thoại
  Cuối cùng thì những bài test này có vẻ là phân tích kém hiệu quả nếu mục tiêu là đánh giá mức độ nhận thức của LLM
- Nano Banana 2 thực ra đã tạo được một ảnh chó 5 chân khá thuyết phục
  liên kết kết quả
  Nhưng mô hình lại không ‘nghĩ’ rằng chính nó đã làm được điều đó
  Ở bước suy luận cuối, nó tự thừa nhận giới hạn của mình khi nói “cái chân thứ năm liên tục bị thiếu”, rồi kết luận rằng “đã nhận ra lỗi nhưng vẫn cung cấp hình ảnh tốt nhất có thể”
- Khi phải vượt qua những khái niệm xuất hiện mất cân đối trong dữ liệu huấn luyện, mô hình sẽ gặp khó khăn
  Ví dụ, nếu thử tạo nhện thiếu một chân, ngôi sao 9 cánh, cỏ bốn lá có 5 lá, hoặc người có số ngón tay khác thường, tỷ lệ thành công còn chưa tới 25%
  Đặc biệt, vấn đề ngón tay khá trớ trêu nếu nghĩ đến công sức từng bỏ ra để sửa lỗi giải phẫu của SD 1.5 ngày trước
Tôi làm bản vẽ điện cho xây dựng và hay ném cho LLM mấy tác vụ đơn giản
Dù chỉ đưa một harness khá sơ sài, nó gần như hoàn thành bố trí ổ cắm trong phòng ngay từ lần đầu
Nếu tinh chỉnh khả năng điều khiển kỹ hơn, có lẽ sớm thôi nó sẽ thay thế được một phần đáng kể công việc của đồng nghiệp tôi
- Giá mà có một cây đũa thần khiến các công cụ như AVEVA hay AutoCAD bớt đau khổ hơn
  Người nên cải thiện những công cụ này không phải kỹ sư người dùng, mà là chính các công ty tạo ra chúng
  Dựa vào các bộ tăng tốc bên thứ ba có độ tin cậy thấp là rất rủi ro
- Tôi muốn xem ví dụ về harness bạn đã dùng. Tôi cũng muốn thử nghiệm
- Câu “AI sẽ không bao giờ thay thế được sự sáng tạo của con người” ngày càng giống một khung thành liên tục bị dời đi
  Phạm vi đang mở rộng dần từ digital art sang quản lý dự án, kỹ thuật, rồi cả lao động chân tay
  Có vẻ chẳng ai còn nhớ rằng ngày xưa Turing test từng là một chủ đề được bàn luận nghiêm túc
Nếu cải thiện OCR được áp dụng vào Google Books thì sẽ cực kỳ lớn
Về lâu dài, thậm chí có thể nén lưu trữ sách hiếm xuống dưới $5,000
Bài blog của Anna’s Archive cũng đáng xem
Sẽ hay nếu archive.org dùng cái này thay cho Tesseract. Chỉ là tôi tò mò về chi phí
- Đây là cấu trúc data flywheel điển hình — mô hình tốt hơn → dữ liệu tốt hơn → mô hình tốt hơn
- “Thêm dữ liệu cho vị thần dữ liệu!”
Kết quả của ScreenSpot Pro khá thú vị
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
Đây là bài test sử dụng máy tính độ phân giải cao dựa trên GUI
liên kết bài báo
- Vài tháng trước tôi từng ngạc nhiên khi trong một bài test OCR đơn giản, GPT-5 cho hiệu năng rất kém so với Opus 4.1 và Gemini 2.5
  Tôi định sẽ test lại với các mô hình mới nhất
  blog liên quan
- Kết quả của GPT-5.1 thấp cực đoan. Liệu có phải do downscale làm mất thông tin không?
- Với đà này thì có vẻ sớm thôi độ chính xác sẽ chạm mức 90%
Báo với tác giả bài viết — liên kết “HTML transcription” đang bị hỏng
Nó đang trỏ tới một địa chỉ Google nội bộ
- Buồn cười ở chỗ thiết kế cổng nội bộ doanh nghiệp mấy chục năm rồi vẫn y hệt. Cái phong cách cũ kỹ đó lại gợi cảm giác hoài niệm
- Tôi là Rohan, tác giả bài viết. Cảm ơn đã báo, tôi vừa sửa ngay rồi
- Khá bất ngờ là liên kết trợ giúp đăng nhập lại mở được mà không cần đăng nhập
- Liên kết “See prompt in Google AI Studio” cũng đang trỏ tới một prompt riêng tư
Nano Banana Pro vẫn chưa thể giải hoàn hảo ô chữ tìm từ
Trong khi đó, Gemini 3 Pro with Code Execution lại trả lời đúng ngay một lần và còn đánh dấu chính xác vị trí từ
ảnh câu đố, kết quả Nano Banana 1, kết quả 2
Nano Banana chỉ đúng được hai từ, nhưng vẫn là một bước tiến lớn so với trước
Đây là kiểu bài toán cần tiền xử lý tinh vi như khớp chữ hoa chữ thường hoặc loại bỏ khoảng trắng
- Khi dùng web app Gemini, tốt hơn là đừng bắt đầu ngay từ chế độ tạo ảnh, mà hãy thiết lập luồng prompt chính xác trong chế độ trò chuyện thông thường trước rồi mới yêu cầu tạo ảnh
Người ta nói “Gemini 3 Pro là một bước nhảy thế hệ từ nhận diện đơn thuần sang suy luận không gian” nhưng
khi tôi yêu cầu “một ly rượu vang đầy”, nó lại vẽ một ly chỉ đầy 2/3
Suy luận không gian thực sự vẫn còn xa lắm
- Gemini 3 Pro khác với Nano Banana Pro, và độ vững của mô hình giải mã ảnh có thể thấp hơn
  Nano Banana Pro giỏi hơn trong việc suy luận vị trí lỗi bên trong ảnh
- Tôi cũng thử cùng prompt đó, và khi nói thêm một lần nữa là “hãy rót đầy tới sát miệng ly” thì nó cho ra một ly đầy hoàn hảo
- Ngược lại, nếu đưa ảnh vào rồi hỏi “ly này đã đầy chưa?” thì có lẽ nó sẽ trả lời chính xác. Qwen-VL đã hoạt động tốt kiểu đó rồi
Đợt công bố này không phải về mô hình mới, mà chỉ nhấn mạnh các trường hợp sử dụng thị giác thực tế của Gemini 3
Người ta nói tính năng xuất tọa độ của Gemini 3 có thể dùng cho ước lượng tư thế hoặc theo dõi quỹ đạo, nhưng
khá tiếc là không có prompt hay tài liệu cụ thể
- Tôi muốn một tính năng trong CMS có thể tự động đóng khung ảnh theo từng tỷ lệ
  Ví dụ như cắt ảnh theo wide, vuông, dọc, hay tỷ lệ 4:3. Có mô hình nào làm được vậy không? Tôi không tìm thấy trên Hugging Face
- Blog liên quan của Simon Willison khá hữu ích: Bounding Box Visualization
Nếu có thể có YouTube kèm mô tả âm thanh thì sẽ thật sự đáng kinh ngạc
Ngay cả khi không tự chơi, ta vẫn có thể nghe Gemini mô tả cảnh như một bản tường thuật gameplay
- Tôi đã phân tích video Zelda TOTK theo khoảng 5 giây để tạo thuyết minh giọng kể
  video gốc, script, giọng TTS
  Vì video chỉ ở 144p nên mô tả chi tiết hơi lệch, nhưng phần mô tả cảnh nhìn chung khá chính xác
- Tôi cũng xử lý một video Witcher 3 dài 1 giờ ở 144p, và có thể dễ dàng tạo mô tả theo từng cảnh với khoảng 300,000 token
- Tôi đã tải đoạn mở đầu 5 phút của Zelda: Breath of the Wild lên ứng dụng Gemini và yêu cầu mô tả theo từng cảnh
  video gốc, gist kết quả
  Phần mô tả dành cho người khiếm thị khá chính xác