Gemini Robotics-ER 1.6: Suy luận hiện thân được nâng cấp

(deepmind.google)

1 điểm bởi GN⁺ 2026-04-16 | 1 bình luận | Chia sẻ qua WhatsApp

Đây là mô hình suy luận hiện thân (embodied reasoning) được nâng cấp được thiết kế để robot có thể hiểu chính xác môi trường vật lý và hành động một cách tự chủ, với năng lực suy luận không gian và lập kế hoạch tác vụ được tăng cường đáng kể
Thực hiện các chức năng phán đoán bậc cao của robot như hiểu thị giác-không gian, phát hiện thành công, suy luận đa góc nhìn, đồng thời trực tiếp xử lý các tác vụ phức tạp thông qua Google Search hoặc gọi hàm bên ngoài
Với tính năng Pointing, mô hình có thể thực hiện nhiều dạng logic không gian như phát hiện/so sánh đối tượng và ước lượng đường đi, đồng thời giảm lỗi ảo giác và cải thiện độ chính xác nhận thức so với phiên bản trước
Mới bổ sung tính năng đọc đồng hồ đo (Instrument Reading), cho phép robot Spot của Boston Dynamics diễn giải chính xác nhiệt kế, áp kế và các thiết bị đo khác trong cơ sở công nghiệp
Điểm nổi bật là nâng cao tỷ lệ tuân thủ chính sách an toàn và tăng mức độ tự chủ cũng như độ tin cậy trong môi trường thực thông qua hợp tác với cộng đồng

Tổng quan về Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 là mô hình suy luận hiện thân được nâng cấp được thiết kế để robot có thể hiểu chính xác môi trường vật lý và hành động một cách tự chủ
Tăng cường năng lực suy luận bậc cao thiết yếu cho robot như suy luận không gian, hiểu đa góc nhìn, lập kế hoạch tác vụ và phát hiện thành công
Có thể trực tiếp gọi nhiều công cụ để thực hiện tác vụ như Google Search, mô hình Vision-Language-Action(VLA), và các hàm tùy chỉnh bên ngoài
So với Gemini Robotics-ER 1.5 và Gemini 3.0 Flash, hiệu năng về suy luận không gian và vật lý (pointing, đếm, phát hiện thành công) được cải thiện rõ rệt
Mới bổ sung tính năng đọc đồng hồ đo (instrument reading) được phát triển với sự hợp tác của Boston Dynamics

Các tính năng chính và cải thiện hiệu năng

Gemini Robotics-ER 1.6 được cung cấp cho nhà phát triển thông qua Gemini API và Google AI Studio
- Cung cấp ví dụ Colab trên GitHub để hướng dẫn cách thiết lập mô hình và xây dựng prompt cho các bài toán suy luận hiện thân
Mô hình đóng vai trò là động cơ suy luận cấp cao phụ trách các quyết định bậc cao của robot như hiểu thị giác và không gian, lập kế hoạch tác vụ, phát hiện thành công
Tận dụng agentic vision để kết hợp suy luận thị giác với thực thi mã, đạt độ chính xác cao ngay cả trong môi trường vật lý phức tạp

Pointing: nền tảng của suy luận không gian

Pointing là chức năng cốt lõi của mô hình suy luận hiện thân, được dùng cho nhiều dạng logic không gian như phát hiện/so sánh đối tượng và ước lượng đường đi
- Suy luận không gian: phát hiện đối tượng chính xác và đếm số lượng
- Logic quan hệ: xác định phần tử nhỏ nhất trong một tập hợp, định nghĩa quan hệ như “di chuyển X đến vị trí Y”
- Suy luận chuyển động: ánh xạ quỹ đạo và xác định điểm gắp tối ưu
- Tuân thủ ràng buộc: xử lý các lệnh phức tạp như “hãy chỉ ra tất cả các vật thể đủ nhỏ để đặt vào trong chiếc cốc màu xanh”
Quảng cáo
Gemini Robotics-ER 1.6 sử dụng pointing như một bước trung gian để giải quyết tác vụ phức tạp theo từng bước
- Ví dụ: đếm số vật thể trong ảnh, xác định các điểm chính cho tính toán toán học
Kết quả thử nghiệm cho thấy 1.6 xác định chính xác nhiều vật thể như búa, kéo, cọ sơn, kìm, và không chỉ vào các vật thể không tồn tại (ví dụ: xe cút kít, máy khoan)
- 1.5 nhận diện sai một số vật thể hoặc tạo ảo giác (hallucination) về vật thể không tồn tại
- 3.0 Flash có hiệu năng gần tương đương nhưng độ chính xác khi nhận diện kìm thấp hơn

Phát hiện thành công: động cơ cốt lõi của tính tự chủ

Khả năng để robot nhận biết thời điểm hoàn thành tác vụ là yếu tố cốt lõi của tính tự chủ
Gemini Robotics-ER 1.6 cải thiện suy luận đa góc nhìn (multi-view reasoning) để hiểu mối quan hệ giữa nhiều luồng camera
- Có thể diễn giải cảnh một cách nhất quán ngay cả trong môi trường phức tạp, có che khuất (occlusion), vấn đề ánh sáng, hoặc chỉ thị mơ hồ
- Ví dụ: xác định chính xác thời điểm tác vụ “đặt bút màu xanh vào giá đỡ bút màu đen” đã hoàn tất thông qua video từ nhiều góc nhìn

Đọc đồng hồ đo: suy luận thị giác trong môi trường thực

Chức năng diễn giải nhiệt kế, đồng hồ áp suất, ống thủy và các thiết bị đo trong cơ sở công nghiệp
- Robot Spot của Boston Dynamics chụp ảnh các thiết bị đo trong cơ sở, và Gemini Robotics-ER 1.6 diễn giải chúng
Hỗ trợ đọc nhiều dạng thiết bị như đồng hồ áp suất dạng tròn, chỉ thị mức dạng dọc, thiết bị đo kỹ thuật số
Quá trình đọc tích hợp diễn giải nhiều yếu tố thị giác phức tạp như mức chất lỏng lắng, vạch chia, văn bản đơn vị, nhiều kim đo
- Với ống thủy, mô hình ước lượng mức chất lỏng có tính đến biến dạng do camera
Thông qua agentic vision, mô hình thực hiện theo từng bước phóng to (zoom), pointing, thực thi mã để đạt khả năng đọc chính xác ở mức dưới mỗi vạch chia (sub-tick)
Phó chủ tịch của Boston Dynamics, Marco da Silva, cho biết tính năng này giúp Spot có thể nhận biết và ứng phó với các vấn đề trong thế giới thực một cách hoàn toàn tự chủ

Cải thiện an toàn

Gemini Robotics-ER 1.6 được đánh giá là mô hình robotics an toàn nhất
- Tỷ lệ tuân thủ chính sách an toàn của Gemini cao hơn thế hệ trước
Quảng cáo
Tăng cường khả năng tuân thủ các ràng buộc an toàn vật lý
- Ví dụ: phản ánh các ràng buộc như “không xử lý chất lỏng”, “không nâng vật nặng quá 20kg” ngay từ giai đoạn đầu ra không gian (pointing)
Trong bài kiểm tra nhận diện kịch bản an toàn bằng văn bản và video dựa trên báo cáo chấn thương thực tế
- Cải thiện +6% ở văn bản và +10% ở video so với Gemini 3.0 Flash
Trong đánh giá Safety Instruction Following, mô hình cải thiện lớn so với 1.5, đồng thời độ chính xác pointing cũng tăng lên

Hợp tác với cộng đồng robotics

Google DeepMind thúc đẩy hợp tác với cộng đồng robotics để liên tục cải thiện năng lực của Gemini Robotics-ER
- Khi có giới hạn trong các lĩnh vực ứng dụng cụ thể, họ đề nghị chia sẻ các ca thất bại bằng cách gửi 10~50 hình ảnh đã gán nhãn
- Mục tiêu là tăng cường độ vững chắc của năng lực suy luận trong các bản phát hành tương lai
Có thể trải nghiệm ngay Gemini Robotics-ER 1.6 trên Google AI Studio

1 bình luận

GN⁺ 2026-04-16

Ý kiến Hacker News

Có cảm giác mọi thứ đang ngày càng tiến gần đến mức mô phỏng hành vi của con người hoặc động vật
Nếu có thể đặt một mẫu điều phối hoạt động giống như não bộ lên trên mô hình sinh, và nếu tốc độ suy luận đủ nhanh, có lẽ nó sẽ làm được nhiều việc hơn rất nhiều
Ví dụ, việc tạo và chạy một script Python để đọc đồng hồ đo hiện còn chậm, nhưng nếu nhanh hơn gấp 100~1000 lần thì có vẻ mô hình có thể chụp ảnh, mô phỏng tương lai và tạo ra một vòng lặp tự ra quyết định
- Taalas đang thử nghiệm nhúng trực tiếp mô hình lên chip để hiện thực hóa suy luận siêu tốc
  Tuy nhiên mô hình họ dùng là Llama cũ nên chất lượng thấp, nhưng nếu có thể mở rộng thì sẽ thật sự rất ấn tượng
- Taalas đã cho thấy có thể chuyển LLM thành ASIC để sinh nhanh hơn 10.000 token
  Tôi nghĩ rốt cuộc chỉ còn là vấn đề thời gian
- Tôi nghi ngờ việc mô phỏng hành vi con người có thực sự là mục tiêu đáng giá hay không
  Con người là sản phẩm tiến hóa của săn bắt và chế tạo công cụ, còn tự động hóa công nghiệp thực tế lại phát triển theo hướng không phải hình người mà là dạng thực dụng như R2D2
  Robot gia dụng có lẽ cũng sẽ gần với hướng đó hơn
- Một câu đùa kiểu nếu đưa “ảnh slop” vào “máy slop” thì liệu có ra “slop²” không
Tôi hình dung chuyện chuẩn bị một mảnh đất cùng chân robot, tay robot, pin, GPU và tấm pin mặt trời,
rồi dùng prompt kiểu “hãy quản lý mảnh đất này và trồng rau”
- Chưa biết kết quả sẽ ra sao, nhưng prompt truyền thống từng là “sinh sôi nảy nở”
- Câu “hãy quản lý mảnh đất này” cũng có thể mang nghĩa quản lý đốt lửa quy mô nhỏ mà người bản địa California đã làm suốt hàng nghìn năm
  Satoyama của Nhật, luân canh ở châu Phi, nông nghiệp theo đường đồng mức ở Nga, mỗi nơi đều có cách riêng
  Cuối cùng điều này nhấn mạnh rằng cách chăm đất thay đổi tùy theo tính địa phương và mục tiêu
- Tôi tò mò các thử nghiệm như Proof of Corn thực tế đang diễn ra thế nào
- Một câu đùa rằng “Xong rồi! Giờ cả Trái Đất đã thành vườn rau”
Google và Boston Dynamics đang hợp tác để cùng phát triển mô hình,
và hiện Hyundai đã mua lại Boston Dynamics để đưa robot vào tự động hóa nhà máy
Tôi từng nghĩ sẽ rất hay nếu có phần mềm chụp đồng hồ áp suất bằng camera rồi ghi lại thành biểu đồ
Không biết có sản phẩm tiêu dùng nào như vậy không
- Chỉ cần nhờ Claude là nó có thể làm luôn trong một lần, kể cả dashboard Home Assistant
- Tôi tò mò phản ứng của công chức sẽ thế nào nếu quanh các đồng hồ đo gần nhà đều gắn camera
- Cứ xem OpenCV là được
- Frigate hay Openclaw cũng làm được, nhưng cái đầu thì hơi quá tay còn cái sau thì bớt quá hơn một chút
Tôi nghi ngờ việc để robot đọc đồng hồ analog có phải là cách tiếp cận đúng không
Có lẽ cứ thay bằng cảm biến số sẽ tốt hơn chăng
- Nhưng để thay thật thì cần phê duyệt kỹ thuật, dừng nhà máy, đi dây, tích hợp SCADA, nên chi phí và quy trình là cực lớn
  Khó mà so sánh đơn giản được, và rất dễ đánh giá thấp độ phức tạp của những thay đổi như vậy
- Thay vì dừng thiết bị để thay mới, lắp camera IoT có thể rẻ hơn và đáng tin cậy hơn nhiều
  Nguyên tắc “nếu chưa hỏng thì đừng sửa” rất hợp ở đây
Nếu nối cái này với hệ thống ‘LLMs can control robots over MCP’ của tôi thì có vẻ sẽ hoàn hảo
LLM viết code tốt nên tôi muốn tận dụng khả năng đó
Tôi dự định sẽ thử với con robot cỡ lớn mới mua
Bài viết liên quan
- Điều này khiến tôi nhớ tới video về Google PaLM-E mà tôi xem khoảng 2 tuần trước
  Đó là cấu trúc kết hợp mô hình điều khiển robot với LLM bằng attention layer
Điều tôi tò mò nhất là phần độ trễ (latency)
Ở một số tác vụ nhận thức, nó tốt hơn các mô hình vision frontier, nhưng nếu dùng cho robot thì hiệu năng theo đơn vị Hz mới quan trọng
Tôi đoán là nó sẽ chậm
- Tôi thử trong AI Studio thì thấy khả năng nhận thức ở mức 3.1 Pro nhưng nhanh hơn nhiều
  Nó chỉ “nghĩ” vài giây rồi ra kết quả
  Ở các bài như đếm số chân động vật hay đọc đồng hồ kim, hiệu năng so với hiệu quả của mô hình là rất cao
Cụm từ “mô hình robot an toàn nhất” nghe khá thú vị
Gemini Robotics-ER 1.6 có tỷ lệ tuân thủ chính sách an toàn cao hơn thế hệ trước,
nhưng vẫn chưa hoàn toàn ở giai đoạn thương mại hóa, và cách tiếp cận theo hướng theo đuổi an toàn như một mục tiêu có vẻ thực tế hơn
AI cho robot có thể đã có những mô hình nội bộ cỡ GPT-2 hay GPT-3,
nhưng vì thất bại trong môi trường đời thường là rất nghiêm trọng nên khó công khai chúng
Ví dụ chỉ cần làm vỡ một cái đĩa trong máy rửa chén thôi cũng đã bị xem là vấn đề lớn
- Cuối tuần tôi xem lại Bicentennial Man (1999), và cảnh với máy rửa chén rất ấn tượng
  Đây là bộ phim hợp để xem vào thời điểm này
- Có khi làm vỡ một cái đĩa cũng không phải vấn đề to tát đến thế
  Roomba đời đầu cũng rất lộn xộn nhưng thị trường vẫn chấp nhận, rồi cuối cùng nó vẫn tiến bộ
  Tôi nghĩ điều quan trọng là cứ vào thị trường để thu thập dữ liệu trước, dù chưa hoàn hảo
- Tôi cũng từng làm vỡ nhiều đĩa trong máy rửa chén
  Chẳng có hệ thống nào hoàn hảo cả
- Ngay cả tôi là con người mà mỗi tháng cũng làm vỡ đĩa hai lần
  Nếu robot làm tốt hơn thế thì còn là cải thiện ấy chứ
- Robotics vẫn còn thiếu dữ liệu ở quy mô Internet
  Nói rằng đã có mô hình tầm GPT thì theo tôi là không thành thật
Tôi đang phân vân liệu có nên tiếp tục dùng mô hình hiện tại
cho đến khi Google chính thức phát hành Gemini Flash 3.1 hay không

Gemini Robotics-ER 1.6: Suy luận hiện thân được nâng cấp

Tổng quan về Gemini Robotics-ER 1.6

Các tính năng chính và cải thiện hiệu năng

Pointing: nền tảng của suy luận không gian

Phát hiện thành công: động cơ cốt lõi của tính tự chủ

Đọc đồng hồ đo: suy luận thị giác trong môi trường thực

Cải thiện an toàn

Hợp tác với cộng đồng robotics

Bài viết liên quan

1 bình luận

Ý kiến Hacker News