- Đây là mô hình suy luận hiện thân (embodied reasoning) được nâng cấp được thiết kế để robot có thể hiểu chính xác môi trường vật lý và hành động một cách tự chủ, với năng lực suy luận không gian và lập kế hoạch tác vụ được tăng cường đáng kể
- Thực hiện các chức năng phán đoán bậc cao của robot như hiểu thị giác-không gian, phát hiện thành công, suy luận đa góc nhìn, đồng thời trực tiếp xử lý các tác vụ phức tạp thông qua Google Search hoặc gọi hàm bên ngoài
- Với tính năng Pointing, mô hình có thể thực hiện nhiều dạng logic không gian như phát hiện/so sánh đối tượng và ước lượng đường đi, đồng thời giảm lỗi ảo giác và cải thiện độ chính xác nhận thức so với phiên bản trước
- Mới bổ sung tính năng đọc đồng hồ đo (Instrument Reading), cho phép robot Spot của Boston Dynamics diễn giải chính xác nhiệt kế, áp kế và các thiết bị đo khác trong cơ sở công nghiệp
- Điểm nổi bật là nâng cao tỷ lệ tuân thủ chính sách an toàn và tăng mức độ tự chủ cũng như độ tin cậy trong môi trường thực thông qua hợp tác với cộng đồng
Tổng quan về Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 là mô hình suy luận hiện thân được nâng cấp được thiết kế để robot có thể hiểu chính xác môi trường vật lý và hành động một cách tự chủ
- Tăng cường năng lực suy luận bậc cao thiết yếu cho robot như suy luận không gian, hiểu đa góc nhìn, lập kế hoạch tác vụ và phát hiện thành công
- Có thể trực tiếp gọi nhiều công cụ để thực hiện tác vụ như Google Search, mô hình Vision-Language-Action(VLA), và các hàm tùy chỉnh bên ngoài
- So với Gemini Robotics-ER 1.5 và Gemini 3.0 Flash, hiệu năng về suy luận không gian và vật lý (pointing, đếm, phát hiện thành công) được cải thiện rõ rệt
- Mới bổ sung tính năng đọc đồng hồ đo (instrument reading) được phát triển với sự hợp tác của Boston Dynamics
Các tính năng chính và cải thiện hiệu năng
- Gemini Robotics-ER 1.6 được cung cấp cho nhà phát triển thông qua Gemini API và Google AI Studio
- Cung cấp ví dụ Colab trên GitHub để hướng dẫn cách thiết lập mô hình và xây dựng prompt cho các bài toán suy luận hiện thân
- Mô hình đóng vai trò là động cơ suy luận cấp cao phụ trách các quyết định bậc cao của robot như hiểu thị giác và không gian, lập kế hoạch tác vụ, phát hiện thành công
- Tận dụng agentic vision để kết hợp suy luận thị giác với thực thi mã, đạt độ chính xác cao ngay cả trong môi trường vật lý phức tạp
Pointing: nền tảng của suy luận không gian
- Pointing là chức năng cốt lõi của mô hình suy luận hiện thân, được dùng cho nhiều dạng logic không gian như phát hiện/so sánh đối tượng và ước lượng đường đi
- Suy luận không gian: phát hiện đối tượng chính xác và đếm số lượng
- Logic quan hệ: xác định phần tử nhỏ nhất trong một tập hợp, định nghĩa quan hệ như “di chuyển X đến vị trí Y”
- Suy luận chuyển động: ánh xạ quỹ đạo và xác định điểm gắp tối ưu
- Tuân thủ ràng buộc: xử lý các lệnh phức tạp như “hãy chỉ ra tất cả các vật thể đủ nhỏ để đặt vào trong chiếc cốc màu xanh”
- Gemini Robotics-ER 1.6 sử dụng pointing như một bước trung gian để giải quyết tác vụ phức tạp theo từng bước
- Ví dụ: đếm số vật thể trong ảnh, xác định các điểm chính cho tính toán toán học
- Kết quả thử nghiệm cho thấy 1.6 xác định chính xác nhiều vật thể như búa, kéo, cọ sơn, kìm, và không chỉ vào các vật thể không tồn tại (ví dụ: xe cút kít, máy khoan)
- 1.5 nhận diện sai một số vật thể hoặc tạo ảo giác (hallucination) về vật thể không tồn tại
- 3.0 Flash có hiệu năng gần tương đương nhưng độ chính xác khi nhận diện kìm thấp hơn
Phát hiện thành công: động cơ cốt lõi của tính tự chủ
- Khả năng để robot nhận biết thời điểm hoàn thành tác vụ là yếu tố cốt lõi của tính tự chủ
- Gemini Robotics-ER 1.6 cải thiện suy luận đa góc nhìn (multi-view reasoning) để hiểu mối quan hệ giữa nhiều luồng camera
- Có thể diễn giải cảnh một cách nhất quán ngay cả trong môi trường phức tạp, có che khuất (occlusion), vấn đề ánh sáng, hoặc chỉ thị mơ hồ
- Ví dụ: xác định chính xác thời điểm tác vụ “đặt bút màu xanh vào giá đỡ bút màu đen” đã hoàn tất thông qua video từ nhiều góc nhìn
Đọc đồng hồ đo: suy luận thị giác trong môi trường thực
- Chức năng diễn giải nhiệt kế, đồng hồ áp suất, ống thủy và các thiết bị đo trong cơ sở công nghiệp
- Robot Spot của Boston Dynamics chụp ảnh các thiết bị đo trong cơ sở, và Gemini Robotics-ER 1.6 diễn giải chúng
- Hỗ trợ đọc nhiều dạng thiết bị như đồng hồ áp suất dạng tròn, chỉ thị mức dạng dọc, thiết bị đo kỹ thuật số
- Quá trình đọc tích hợp diễn giải nhiều yếu tố thị giác phức tạp như mức chất lỏng lắng, vạch chia, văn bản đơn vị, nhiều kim đo
- Với ống thủy, mô hình ước lượng mức chất lỏng có tính đến biến dạng do camera
- Thông qua agentic vision, mô hình thực hiện theo từng bước phóng to (zoom), pointing, thực thi mã để đạt khả năng đọc chính xác ở mức dưới mỗi vạch chia (sub-tick)
- Phó chủ tịch của Boston Dynamics, Marco da Silva, cho biết tính năng này giúp Spot có thể nhận biết và ứng phó với các vấn đề trong thế giới thực một cách hoàn toàn tự chủ
Cải thiện an toàn
- Gemini Robotics-ER 1.6 được đánh giá là mô hình robotics an toàn nhất
- Tỷ lệ tuân thủ chính sách an toàn của Gemini cao hơn thế hệ trước
- Tăng cường khả năng tuân thủ các ràng buộc an toàn vật lý
- Ví dụ: phản ánh các ràng buộc như “không xử lý chất lỏng”, “không nâng vật nặng quá 20kg” ngay từ giai đoạn đầu ra không gian (pointing)
- Trong bài kiểm tra nhận diện kịch bản an toàn bằng văn bản và video dựa trên báo cáo chấn thương thực tế
- Cải thiện +6% ở văn bản và +10% ở video so với Gemini 3.0 Flash
- Trong đánh giá Safety Instruction Following, mô hình cải thiện lớn so với 1.5, đồng thời độ chính xác pointing cũng tăng lên
Hợp tác với cộng đồng robotics
- Google DeepMind thúc đẩy hợp tác với cộng đồng robotics để liên tục cải thiện năng lực của Gemini Robotics-ER
- Khi có giới hạn trong các lĩnh vực ứng dụng cụ thể, họ đề nghị chia sẻ các ca thất bại bằng cách gửi 10~50 hình ảnh đã gán nhãn
- Mục tiêu là tăng cường độ vững chắc của năng lực suy luận trong các bản phát hành tương lai
- Có thể trải nghiệm ngay Gemini Robotics-ER 1.6 trên Google AI Studio
1 bình luận
Ý kiến Hacker News
Có cảm giác mọi thứ đang ngày càng tiến gần đến mức mô phỏng hành vi của con người hoặc động vật
Nếu có thể đặt một mẫu điều phối hoạt động giống như não bộ lên trên mô hình sinh, và nếu tốc độ suy luận đủ nhanh, có lẽ nó sẽ làm được nhiều việc hơn rất nhiều
Ví dụ, việc tạo và chạy một script Python để đọc đồng hồ đo hiện còn chậm, nhưng nếu nhanh hơn gấp 100~1000 lần thì có vẻ mô hình có thể chụp ảnh, mô phỏng tương lai và tạo ra một vòng lặp tự ra quyết định
Tuy nhiên mô hình họ dùng là Llama cũ nên chất lượng thấp, nhưng nếu có thể mở rộng thì sẽ thật sự rất ấn tượng
Tôi nghĩ rốt cuộc chỉ còn là vấn đề thời gian
Con người là sản phẩm tiến hóa của săn bắt và chế tạo công cụ, còn tự động hóa công nghiệp thực tế lại phát triển theo hướng không phải hình người mà là dạng thực dụng như R2D2
Robot gia dụng có lẽ cũng sẽ gần với hướng đó hơn
Tôi hình dung chuyện chuẩn bị một mảnh đất cùng chân robot, tay robot, pin, GPU và tấm pin mặt trời,
rồi dùng prompt kiểu “hãy quản lý mảnh đất này và trồng rau”
Satoyama của Nhật, luân canh ở châu Phi, nông nghiệp theo đường đồng mức ở Nga, mỗi nơi đều có cách riêng
Cuối cùng điều này nhấn mạnh rằng cách chăm đất thay đổi tùy theo tính địa phương và mục tiêu
Google và Boston Dynamics đang hợp tác để cùng phát triển mô hình,
và hiện Hyundai đã mua lại Boston Dynamics để đưa robot vào tự động hóa nhà máy
Tôi từng nghĩ sẽ rất hay nếu có phần mềm chụp đồng hồ áp suất bằng camera rồi ghi lại thành biểu đồ
Không biết có sản phẩm tiêu dùng nào như vậy không
Tôi nghi ngờ việc để robot đọc đồng hồ analog có phải là cách tiếp cận đúng không
Có lẽ cứ thay bằng cảm biến số sẽ tốt hơn chăng
Khó mà so sánh đơn giản được, và rất dễ đánh giá thấp độ phức tạp của những thay đổi như vậy
Nguyên tắc “nếu chưa hỏng thì đừng sửa” rất hợp ở đây
Nếu nối cái này với hệ thống ‘LLMs can control robots over MCP’ của tôi thì có vẻ sẽ hoàn hảo
LLM viết code tốt nên tôi muốn tận dụng khả năng đó
Tôi dự định sẽ thử với con robot cỡ lớn mới mua
Bài viết liên quan
Đó là cấu trúc kết hợp mô hình điều khiển robot với LLM bằng attention layer
Điều tôi tò mò nhất là phần độ trễ (latency)
Ở một số tác vụ nhận thức, nó tốt hơn các mô hình vision frontier, nhưng nếu dùng cho robot thì hiệu năng theo đơn vị Hz mới quan trọng
Tôi đoán là nó sẽ chậm
Nó chỉ “nghĩ” vài giây rồi ra kết quả
Ở các bài như đếm số chân động vật hay đọc đồng hồ kim, hiệu năng so với hiệu quả của mô hình là rất cao
Cụm từ “mô hình robot an toàn nhất” nghe khá thú vị
Gemini Robotics-ER 1.6 có tỷ lệ tuân thủ chính sách an toàn cao hơn thế hệ trước,
nhưng vẫn chưa hoàn toàn ở giai đoạn thương mại hóa, và cách tiếp cận theo hướng theo đuổi an toàn như một mục tiêu có vẻ thực tế hơn
AI cho robot có thể đã có những mô hình nội bộ cỡ GPT-2 hay GPT-3,
nhưng vì thất bại trong môi trường đời thường là rất nghiêm trọng nên khó công khai chúng
Ví dụ chỉ cần làm vỡ một cái đĩa trong máy rửa chén thôi cũng đã bị xem là vấn đề lớn
Đây là bộ phim hợp để xem vào thời điểm này
Roomba đời đầu cũng rất lộn xộn nhưng thị trường vẫn chấp nhận, rồi cuối cùng nó vẫn tiến bộ
Tôi nghĩ điều quan trọng là cứ vào thị trường để thu thập dữ liệu trước, dù chưa hoàn hảo
Chẳng có hệ thống nào hoàn hảo cả
Nếu robot làm tốt hơn thế thì còn là cải thiện ấy chứ
Nói rằng đã có mô hình tầm GPT thì theo tôi là không thành thật
Tôi đang phân vân liệu có nên tiếp tục dùng mô hình hiện tại
cho đến khi Google chính thức phát hành Gemini Flash 3.1 hay không