- Gemini 3 Pro là mô hình đa phương thức thế hệ mới, vượt xa giai đoạn nhận diện đơn thuần để thực hiện suy luận thị giác và không gian
- Ghi nhận hiệu năng hàng đầu trên nhiều lĩnh vực như hiểu tài liệu, không gian, màn hình và video, đồng thời đạt đẳng cấp cao nhất trong các benchmark suy luận thị giác phức tạp
- Trong hiểu tài liệu, mô hình cung cấp khả năng suy luận nâng cao như OCR chính xác và khôi phục cấu trúc (derendering), phân tích bảng biểu và biểu đồ nhiều bước
- Trong hiểu không gian, màn hình và video, mô hình tăng cường khả năng tương tác với môi trường thực thông qua trỏ theo tọa độ, phân tích khung hình tốc độ cao và truy vết nguyên nhân trong video
- Hỗ trợ hiểu thị giác chính xác và tự động hóa trong nhiều ngành như giáo dục, y tế, pháp lý và tài chính; nhà phát triển có thể điều chỉnh hiệu năng và chi phí bằng tham số
media_resolution
Tổng quan về Gemini 3 Pro
- Gemini 3 Pro là mô hình đã phát triển từ nhận diện đơn thuần sang suy luận thị giác và không gian, đồng thời là mô hình đa phương thức mạnh nhất do Google phát triển
- Ghi điểm cao nhất trên các benchmark mới nhất về hiểu tài liệu, không gian, màn hình và video
- Đạt mức hiệu năng cao nhất mới trong các bài kiểm tra suy luận thị giác phức tạp như MMMU Pro và Video MMMU
1. Hiểu tài liệu
- Tài liệu thực tế thường pha trộn các yếu tố phi cấu trúc như hình ảnh, chữ viết tay, bảng và công thức; Gemini 3 Pro có thể nhận diện chính xác và cấu trúc hóa chúng
- Độ chính xác OCR và khả năng suy luận thị giác đã được cải thiện đáng kể
- Thông qua chức năng derendering, có thể khôi phục tài liệu thị giác thành mã có cấu trúc như HTML, LaTeX, Markdown
- Chuyển sổ cái của thương nhân thế kỷ 18 thành bảng, hoặc tái dựng ảnh công thức thành mã LaTeX
- Tái hiện biểu đồ gốc của Florence Nightingale thành biểu đồ tương tác
- Với khả năng suy luận tổng hợp, mô hình có thể phân tích từng bước bảng và biểu đồ trong các báo cáo dài
- Trên benchmark CharXiv Reasoning, mô hình vượt chuẩn con người (80,5%)
- Trong ví dụ từ báo cáo của Cục Điều tra Dân số Hoa Kỳ, mô hình đã liên kết biến động chỉ số Gini với phân tích số liệu và chính sách để xác định chính xác nguyên nhân (kết thúc chính sách ARPA, chấm dứt trợ cấp kích thích kinh tế)
- Kết luận rằng tỷ trọng của nhóm thu nhập thấp nhất gồm 20% dân số đã tăng lên thông qua so sánh bảng
2. Hiểu không gian
- Gemini 3 Pro là phiên bản có năng lực nhận thức không gian mạnh nhất, được tối ưu để hiểu thế giới vật lý
- Có thể chỉ ra chính xác vị trí cụ thể trong ảnh bằng đầu ra tọa độ theo đơn vị pixel
- Sử dụng các điểm 2D liên tiếp để thực hiện ước lượng tư thế cơ thể hoặc theo dõi quỹ đạo
- Với khả năng tham chiếu open vocabulary, mô hình có thể nhận diện vật thể và ý định
- Có thể tạo kế hoạch dựa trên không gian cho robot với yêu cầu như “hãy phân loại rác trên chiếc bàn này”
- Hỗ trợ thực hiện chỉ dẫn trực quan trên thiết bị AR/XR như “hãy chỉ vào con ốc theo sách hướng dẫn sử dụng”
3. Hiểu màn hình
- Có thể nhận diện chính xác màn hình hệ điều hành desktop và mobile để hỗ trợ tự động hóa thao tác máy tính
- Ứng dụng trong tự động hóa tác vụ lặp lại, kiểm thử QA, onboarding người dùng và phân tích UX
- Nhận diện các thành phần UI và xác định chính xác vị trí cần nhấp
4. Hiểu video
- Video là dạng dữ liệu phức tạp nhất, và Gemini 3 Pro có thể phân tích với tốc độ cao và độ chính xác cao
- Xử lý tốc độ khung hình cao (>1 FPS) để nhận diện chuyển động nhanh, cho phép phân tích chuyển động tinh vi như cú swing golf
- Khi xử lý ở 10 FPS, mô hình có thể nắm bắt cả sự chuyển trọng tâm và các chi tiết động tác trong cú swing
- Chế độ
Thinking mở rộng từ nhận diện đối tượng đơn thuần sang suy luận video dạng truy vết nguyên nhân - kết quả
- Không chỉ hiểu “điều gì” đã xảy ra mà còn hiểu “vì sao”
- Có thể phân tích video dài để chuyển thành mã ứng dụng hoặc thông tin có cấu trúc, tăng cường liên kết giữa video và mã
5. Lĩnh vực ứng dụng thực tế
- Giáo dục: nâng cao năng lực giải quyết bài toán dựa trên biểu đồ trong toán học và khoa học
- Xử lý các bài toán suy luận đa phương thức từ bậc trung học đến đại học
- Phân tích các câu đố toán học trực quan như [Math Kangaroo] và các sơ đồ hóa học, vật lý phức tạp
- Kết hợp với [Nano Banana Pro] để đánh dấu trực quan lỗi trong bài làm của học sinh
- Y tế và khoa học sự sống: đạt hiệu năng cao nhất trên các benchmark hình ảnh y khoa như MedXpertQA-MM, VQA-RAD, MicroVQA
- Ứng dụng trong hỏi đáp ảnh chẩn đoán hình ảnh và nghiên cứu sinh học dựa trên kính hiển vi
- Pháp lý và tài chính: hỗ trợ tự động hóa xử lý tài liệu chuyên môn bằng cách phân tích bảng và biểu đồ trong các báo cáo, hợp đồng phức tạp
6. Kiểm soát độ phân giải phương tiện
- Cải thiện chất lượng bằng cách giữ nguyên tỷ lệ khung hình gốc khi xử lý đầu vào thị giác
- Có thể điều chỉnh cân bằng giữa hiệu năng và chi phí bằng tham số
media_resolution
- High resolution: phù hợp cho OCR chi tiết và hiểu tài liệu phức tạp
- Low resolution: tối ưu chi phí và độ trễ khi nhận diện cảnh hoặc xử lý ngữ cảnh dài
- Có thể xem thiết lập chi tiết trong [Gemini 3.0 Documentation Guide]
Truy cập cho nhà phát triển
- Gemini 3 Pro có thể được thử nghiệm trực tiếp trên Google AI Studio, và
thông qua tài liệu dành cho nhà phát triển, Google hỗ trợ tích hợp API và khai thác mô hình
3 bình luận
Mọi thứ đều tốt, nhưng tôi mong họ sửa việc cứ tự chèn video YouTube trái với chỉ dẫn của người dùng. Cứ đang trả lời thì lại tự phát làm đứt mạch tập trung, nên tôi đã cấm video trong personal context rồi mà thỉnh thoảng nó vẫn phớt lờ và nhét video vào. Bực thật...
Tôi chỉ bảo nó tạo cho tôi một danh sách thôi mà tự dưng nó lại bảo kết nối với Google Drive cơ chứ lol
Ý kiến trên Hacker News
Trong bài kiểm tra ảnh LLM do tôi tạo, lần đầu tiên đã xuất hiện một mô hình được điểm phần nào
Bài test là đếm số chân của một con chó có 5 chân, nhưng hầu hết các LLM đều khăng khăng nói là 4
GPT-5 thậm chí còn tự viết một script phát hiện cạnh để tìm ranh giới giữa “bàn chân chó màu vàng óng” và “cỏ xanh sáng”, rồi cố chứng minh là 4, nhưng khi thực sự tìm ra 5 thì lại bảo đó là bug và chỉnh độ nhạy
Gemini 3 lúc đầu cũng đếm sai số chân, nhưng lại nhận ra “cấu trúc giải phẫu nam giới” trong bức ảnh. Tức là cái chân thứ 5 nằm ở vị trí đó
Dù vậy thì vẫn khó mà gọi là ấn tượng
Nhân tiện, image slicer của Meta đã nhận ra chính xác 5 cái chân. Tất cả những con chó nhiều chân đều được tạo bằng nano-banana
Tôi bảo Gemini và Grok đếm số chân thì cả hai đều khăng khăng là 4
Khi tôi nói Grok sai, nó rơi vào khủng hoảng bản thể luận, rồi cuối cùng kết luận rằng “đây là một bức ảnh ảo giác nổi tiếng, trông như chó không đầu nhưng thực ra chỉ có ba chân”
Mấy bài test kiểu này luôn kéo tôi về thực tại mỗi khi tôi bắt đầu cảm thấy LLM thật sự ‘thông minh’
Nếu bảo LLM vẽ đường đi tối ưu thì tất cả đều thất bại
Đây là kết quả của Nano Banana: liên kết bài test
Ngoài việc chứng minh mô hình không suy nghĩ như con người thì cũng chẳng chứng minh được gì nhiều
Tôi cũng tự hỏi prompt có nói rõ với mô hình rằng “hãy diễn giải bức ảnh này thật sát nghĩa” hay là được thiết kế với ý đồ cố tình đánh lừa
Cũng không rõ tiêu chí thành công chỉ đơn giản là trả lời “5”, hay có tính cả ngữ cảnh hội thoại
Cuối cùng thì những bài test này có vẻ là phân tích kém hiệu quả nếu mục tiêu là đánh giá mức độ nhận thức của LLM
liên kết kết quả
Nhưng mô hình lại không ‘nghĩ’ rằng chính nó đã làm được điều đó
Ở bước suy luận cuối, nó tự thừa nhận giới hạn của mình khi nói “cái chân thứ năm liên tục bị thiếu”, rồi kết luận rằng “đã nhận ra lỗi nhưng vẫn cung cấp hình ảnh tốt nhất có thể”
Ví dụ, nếu thử tạo nhện thiếu một chân, ngôi sao 9 cánh, cỏ bốn lá có 5 lá, hoặc người có số ngón tay khác thường, tỷ lệ thành công còn chưa tới 25%
Đặc biệt, vấn đề ngón tay khá trớ trêu nếu nghĩ đến công sức từng bỏ ra để sửa lỗi giải phẫu của SD 1.5 ngày trước
Tôi làm bản vẽ điện cho xây dựng và hay ném cho LLM mấy tác vụ đơn giản
Dù chỉ đưa một harness khá sơ sài, nó gần như hoàn thành bố trí ổ cắm trong phòng ngay từ lần đầu
Nếu tinh chỉnh khả năng điều khiển kỹ hơn, có lẽ sớm thôi nó sẽ thay thế được một phần đáng kể công việc của đồng nghiệp tôi
Người nên cải thiện những công cụ này không phải kỹ sư người dùng, mà là chính các công ty tạo ra chúng
Dựa vào các bộ tăng tốc bên thứ ba có độ tin cậy thấp là rất rủi ro
Phạm vi đang mở rộng dần từ digital art sang quản lý dự án, kỹ thuật, rồi cả lao động chân tay
Có vẻ chẳng ai còn nhớ rằng ngày xưa Turing test từng là một chủ đề được bàn luận nghiêm túc
Nếu cải thiện OCR được áp dụng vào Google Books thì sẽ cực kỳ lớn
Về lâu dài, thậm chí có thể nén lưu trữ sách hiếm xuống dưới $5,000
Bài blog của Anna’s Archive cũng đáng xem
Sẽ hay nếu archive.org dùng cái này thay cho Tesseract. Chỉ là tôi tò mò về chi phí
Kết quả của ScreenSpot Pro khá thú vị
Đây là bài test sử dụng máy tính độ phân giải cao dựa trên GUI
liên kết bài báo
Tôi định sẽ test lại với các mô hình mới nhất
blog liên quan
Báo với tác giả bài viết — liên kết “HTML transcription” đang bị hỏng
Nó đang trỏ tới một địa chỉ Google nội bộ
Nano Banana Pro vẫn chưa thể giải hoàn hảo ô chữ tìm từ
Trong khi đó, Gemini 3 Pro with Code Execution lại trả lời đúng ngay một lần và còn đánh dấu chính xác vị trí từ
ảnh câu đố, kết quả Nano Banana 1, kết quả 2
Nano Banana chỉ đúng được hai từ, nhưng vẫn là một bước tiến lớn so với trước
Đây là kiểu bài toán cần tiền xử lý tinh vi như khớp chữ hoa chữ thường hoặc loại bỏ khoảng trắng
Người ta nói “Gemini 3 Pro là một bước nhảy thế hệ từ nhận diện đơn thuần sang suy luận không gian” nhưng
khi tôi yêu cầu “một ly rượu vang đầy”, nó lại vẽ một ly chỉ đầy 2/3
Suy luận không gian thực sự vẫn còn xa lắm
Nano Banana Pro giỏi hơn trong việc suy luận vị trí lỗi bên trong ảnh
Đợt công bố này không phải về mô hình mới, mà chỉ nhấn mạnh các trường hợp sử dụng thị giác thực tế của Gemini 3
Người ta nói tính năng xuất tọa độ của Gemini 3 có thể dùng cho ước lượng tư thế hoặc theo dõi quỹ đạo, nhưng
khá tiếc là không có prompt hay tài liệu cụ thể
Ví dụ như cắt ảnh theo wide, vuông, dọc, hay tỷ lệ 4:3. Có mô hình nào làm được vậy không? Tôi không tìm thấy trên Hugging Face
Nếu có thể có YouTube kèm mô tả âm thanh thì sẽ thật sự đáng kinh ngạc
Ngay cả khi không tự chơi, ta vẫn có thể nghe Gemini mô tả cảnh như một bản tường thuật gameplay
video gốc, script, giọng TTS
Vì video chỉ ở 144p nên mô tả chi tiết hơi lệch, nhưng phần mô tả cảnh nhìn chung khá chính xác
video gốc, gist kết quả
Phần mô tả dành cho người khiếm thị khá chính xác