1 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đây là mô hình suy luận hiện thân (embodied reasoning) được nâng cấp được thiết kế để robot có thể hiểu chính xác môi trường vật lý và hành động một cách tự chủ, với năng lực suy luận không gian và lập kế hoạch tác vụ được tăng cường đáng kể
  • Thực hiện các chức năng phán đoán bậc cao của robot như hiểu thị giác-không gian, phát hiện thành công, suy luận đa góc nhìn, đồng thời trực tiếp xử lý các tác vụ phức tạp thông qua Google Search hoặc gọi hàm bên ngoài
  • Với tính năng Pointing, mô hình có thể thực hiện nhiều dạng logic không gian như phát hiện/so sánh đối tượng và ước lượng đường đi, đồng thời giảm lỗi ảo giác và cải thiện độ chính xác nhận thức so với phiên bản trước
  • Mới bổ sung tính năng đọc đồng hồ đo (Instrument Reading), cho phép robot Spot của Boston Dynamics diễn giải chính xác nhiệt kế, áp kế và các thiết bị đo khác trong cơ sở công nghiệp
  • Điểm nổi bật là nâng cao tỷ lệ tuân thủ chính sách an toàn và tăng mức độ tự chủ cũng như độ tin cậy trong môi trường thực thông qua hợp tác với cộng đồng

Tổng quan về Gemini Robotics-ER 1.6

  • Gemini Robotics-ER 1.6mô hình suy luận hiện thân được nâng cấp được thiết kế để robot có thể hiểu chính xác môi trường vật lý và hành động một cách tự chủ
  • Tăng cường năng lực suy luận bậc cao thiết yếu cho robot như suy luận không gian, hiểu đa góc nhìn, lập kế hoạch tác vụ và phát hiện thành công
  • Có thể trực tiếp gọi nhiều công cụ để thực hiện tác vụ như Google Search, mô hình Vision-Language-Action(VLA), và các hàm tùy chỉnh bên ngoài
  • So với Gemini Robotics-ER 1.5Gemini 3.0 Flash, hiệu năng về suy luận không gian và vật lý (pointing, đếm, phát hiện thành công) được cải thiện rõ rệt
  • Mới bổ sung tính năng đọc đồng hồ đo (instrument reading) được phát triển với sự hợp tác của Boston Dynamics

Các tính năng chính và cải thiện hiệu năng

  • Gemini Robotics-ER 1.6 được cung cấp cho nhà phát triển thông qua Gemini APIGoogle AI Studio
    • Cung cấp ví dụ Colab trên GitHub để hướng dẫn cách thiết lập mô hình và xây dựng prompt cho các bài toán suy luận hiện thân
  • Mô hình đóng vai trò là động cơ suy luận cấp cao phụ trách các quyết định bậc cao của robot như hiểu thị giác và không gian, lập kế hoạch tác vụ, phát hiện thành công
  • Tận dụng agentic vision để kết hợp suy luận thị giác với thực thi mã, đạt độ chính xác cao ngay cả trong môi trường vật lý phức tạp

Pointing: nền tảng của suy luận không gian

  • Pointing là chức năng cốt lõi của mô hình suy luận hiện thân, được dùng cho nhiều dạng logic không gian như phát hiện/so sánh đối tượng và ước lượng đường đi
    • Suy luận không gian: phát hiện đối tượng chính xác và đếm số lượng
    • Logic quan hệ: xác định phần tử nhỏ nhất trong một tập hợp, định nghĩa quan hệ như “di chuyển X đến vị trí Y”
    • Suy luận chuyển động: ánh xạ quỹ đạo và xác định điểm gắp tối ưu
    • Tuân thủ ràng buộc: xử lý các lệnh phức tạp như “hãy chỉ ra tất cả các vật thể đủ nhỏ để đặt vào trong chiếc cốc màu xanh”
  • Gemini Robotics-ER 1.6 sử dụng pointing như một bước trung gian để giải quyết tác vụ phức tạp theo từng bước
    • Ví dụ: đếm số vật thể trong ảnh, xác định các điểm chính cho tính toán toán học
  • Kết quả thử nghiệm cho thấy 1.6 xác định chính xác nhiều vật thể như búa, kéo, cọ sơn, kìm, và không chỉ vào các vật thể không tồn tại (ví dụ: xe cút kít, máy khoan)
    • 1.5 nhận diện sai một số vật thể hoặc tạo ảo giác (hallucination) về vật thể không tồn tại
    • 3.0 Flash có hiệu năng gần tương đương nhưng độ chính xác khi nhận diện kìm thấp hơn

Phát hiện thành công: động cơ cốt lõi của tính tự chủ

  • Khả năng để robot nhận biết thời điểm hoàn thành tác vụ là yếu tố cốt lõi của tính tự chủ
  • Gemini Robotics-ER 1.6 cải thiện suy luận đa góc nhìn (multi-view reasoning) để hiểu mối quan hệ giữa nhiều luồng camera
    • Có thể diễn giải cảnh một cách nhất quán ngay cả trong môi trường phức tạp, có che khuất (occlusion), vấn đề ánh sáng, hoặc chỉ thị mơ hồ
    • Ví dụ: xác định chính xác thời điểm tác vụ “đặt bút màu xanh vào giá đỡ bút màu đen” đã hoàn tất thông qua video từ nhiều góc nhìn

Đọc đồng hồ đo: suy luận thị giác trong môi trường thực

  • Chức năng diễn giải nhiệt kế, đồng hồ áp suất, ống thủy và các thiết bị đo trong cơ sở công nghiệp
    • Robot Spot của Boston Dynamics chụp ảnh các thiết bị đo trong cơ sở, và Gemini Robotics-ER 1.6 diễn giải chúng
  • Hỗ trợ đọc nhiều dạng thiết bị như đồng hồ áp suất dạng tròn, chỉ thị mức dạng dọc, thiết bị đo kỹ thuật số
  • Quá trình đọc tích hợp diễn giải nhiều yếu tố thị giác phức tạp như mức chất lỏng lắng, vạch chia, văn bản đơn vị, nhiều kim đo
    • Với ống thủy, mô hình ước lượng mức chất lỏng có tính đến biến dạng do camera
  • Thông qua agentic vision, mô hình thực hiện theo từng bước phóng to (zoom), pointing, thực thi mã để đạt khả năng đọc chính xác ở mức dưới mỗi vạch chia (sub-tick)
  • Phó chủ tịch của Boston Dynamics, Marco da Silva, cho biết tính năng này giúp Spot có thể nhận biết và ứng phó với các vấn đề trong thế giới thực một cách hoàn toàn tự chủ

Cải thiện an toàn

  • Gemini Robotics-ER 1.6 được đánh giá là mô hình robotics an toàn nhất
    • Tỷ lệ tuân thủ chính sách an toàn của Gemini cao hơn thế hệ trước
  • Tăng cường khả năng tuân thủ các ràng buộc an toàn vật lý
    • Ví dụ: phản ánh các ràng buộc như “không xử lý chất lỏng”, “không nâng vật nặng quá 20kg” ngay từ giai đoạn đầu ra không gian (pointing)
  • Trong bài kiểm tra nhận diện kịch bản an toàn bằng văn bản và video dựa trên báo cáo chấn thương thực tế
    • Cải thiện +6% ở văn bản và +10% ở video so với Gemini 3.0 Flash
  • Trong đánh giá Safety Instruction Following, mô hình cải thiện lớn so với 1.5, đồng thời độ chính xác pointing cũng tăng lên

Hợp tác với cộng đồng robotics

  • Google DeepMind thúc đẩy hợp tác với cộng đồng robotics để liên tục cải thiện năng lực của Gemini Robotics-ER
    • Khi có giới hạn trong các lĩnh vực ứng dụng cụ thể, họ đề nghị chia sẻ các ca thất bại bằng cách gửi 10~50 hình ảnh đã gán nhãn
    • Mục tiêu là tăng cường độ vững chắc của năng lực suy luận trong các bản phát hành tương lai
  • Có thể trải nghiệm ngay Gemini Robotics-ER 1.6 trên Google AI Studio

1 bình luận

 
Ý kiến Hacker News
  • Có cảm giác mọi thứ đang ngày càng tiến gần đến mức mô phỏng hành vi của con người hoặc động vật
    Nếu có thể đặt một mẫu điều phối hoạt động giống như não bộ lên trên mô hình sinh, và nếu tốc độ suy luận đủ nhanh, có lẽ nó sẽ làm được nhiều việc hơn rất nhiều
    Ví dụ, việc tạo và chạy một script Python để đọc đồng hồ đo hiện còn chậm, nhưng nếu nhanh hơn gấp 100~1000 lần thì có vẻ mô hình có thể chụp ảnh, mô phỏng tương lai và tạo ra một vòng lặp tự ra quyết định

    • Taalas đang thử nghiệm nhúng trực tiếp mô hình lên chip để hiện thực hóa suy luận siêu tốc
      Tuy nhiên mô hình họ dùng là Llama cũ nên chất lượng thấp, nhưng nếu có thể mở rộng thì sẽ thật sự rất ấn tượng
    • Taalas đã cho thấy có thể chuyển LLM thành ASIC để sinh nhanh hơn 10.000 token
      Tôi nghĩ rốt cuộc chỉ còn là vấn đề thời gian
    • Tôi nghi ngờ việc mô phỏng hành vi con người có thực sự là mục tiêu đáng giá hay không
      Con người là sản phẩm tiến hóa của săn bắt và chế tạo công cụ, còn tự động hóa công nghiệp thực tế lại phát triển theo hướng không phải hình người mà là dạng thực dụng như R2D2
      Robot gia dụng có lẽ cũng sẽ gần với hướng đó hơn
    • Một câu đùa kiểu nếu đưa “ảnh slop” vào “máy slop” thì liệu có ra “slop²” không
  • Tôi hình dung chuyện chuẩn bị một mảnh đất cùng chân robot, tay robot, pin, GPU và tấm pin mặt trời,
    rồi dùng prompt kiểu “hãy quản lý mảnh đất này và trồng rau”

    • Chưa biết kết quả sẽ ra sao, nhưng prompt truyền thống từng là “sinh sôi nảy nở
    • Câu “hãy quản lý mảnh đất này” cũng có thể mang nghĩa quản lý đốt lửa quy mô nhỏ mà người bản địa California đã làm suốt hàng nghìn năm
      Satoyama của Nhật, luân canh ở châu Phi, nông nghiệp theo đường đồng mức ở Nga, mỗi nơi đều có cách riêng
      Cuối cùng điều này nhấn mạnh rằng cách chăm đất thay đổi tùy theo tính địa phương và mục tiêu
    • Tôi tò mò các thử nghiệm như Proof of Corn thực tế đang diễn ra thế nào
    • Một câu đùa rằng “Xong rồi! Giờ cả Trái Đất đã thành vườn rau”
  • Google và Boston Dynamics đang hợp tác để cùng phát triển mô hình,
    và hiện Hyundai đã mua lại Boston Dynamics để đưa robot vào tự động hóa nhà máy

  • Tôi từng nghĩ sẽ rất hay nếu có phần mềm chụp đồng hồ áp suất bằng camera rồi ghi lại thành biểu đồ
    Không biết có sản phẩm tiêu dùng nào như vậy không

    • Chỉ cần nhờ Claude là nó có thể làm luôn trong một lần, kể cả dashboard Home Assistant
    • Tôi tò mò phản ứng của công chức sẽ thế nào nếu quanh các đồng hồ đo gần nhà đều gắn camera
    • Cứ xem OpenCV là được
    • Frigate hay Openclaw cũng làm được, nhưng cái đầu thì hơi quá tay còn cái sau thì bớt quá hơn một chút
  • Tôi nghi ngờ việc để robot đọc đồng hồ analog có phải là cách tiếp cận đúng không
    Có lẽ cứ thay bằng cảm biến số sẽ tốt hơn chăng

    • Nhưng để thay thật thì cần phê duyệt kỹ thuật, dừng nhà máy, đi dây, tích hợp SCADA, nên chi phí và quy trình là cực lớn
      Khó mà so sánh đơn giản được, và rất dễ đánh giá thấp độ phức tạp của những thay đổi như vậy
    • Thay vì dừng thiết bị để thay mới, lắp camera IoT có thể rẻ hơn và đáng tin cậy hơn nhiều
      Nguyên tắc “nếu chưa hỏng thì đừng sửa” rất hợp ở đây
  • Nếu nối cái này với hệ thống ‘LLMs can control robots over MCP’ của tôi thì có vẻ sẽ hoàn hảo
    LLM viết code tốt nên tôi muốn tận dụng khả năng đó
    Tôi dự định sẽ thử với con robot cỡ lớn mới mua
    Bài viết liên quan

    • Điều này khiến tôi nhớ tới video về Google PaLM-E mà tôi xem khoảng 2 tuần trước
      Đó là cấu trúc kết hợp mô hình điều khiển robot với LLM bằng attention layer
  • Điều tôi tò mò nhất là phần độ trễ (latency)
    Ở một số tác vụ nhận thức, nó tốt hơn các mô hình vision frontier, nhưng nếu dùng cho robot thì hiệu năng theo đơn vị Hz mới quan trọng
    Tôi đoán là nó sẽ chậm

    • Tôi thử trong AI Studio thì thấy khả năng nhận thức ở mức 3.1 Pro nhưng nhanh hơn nhiều
      Nó chỉ “nghĩ” vài giây rồi ra kết quả
      Ở các bài như đếm số chân động vật hay đọc đồng hồ kim, hiệu năng so với hiệu quả của mô hình là rất cao
  • Cụm từ “mô hình robot an toàn nhất” nghe khá thú vị
    Gemini Robotics-ER 1.6 có tỷ lệ tuân thủ chính sách an toàn cao hơn thế hệ trước,
    nhưng vẫn chưa hoàn toàn ở giai đoạn thương mại hóa, và cách tiếp cận theo hướng theo đuổi an toàn như một mục tiêu có vẻ thực tế hơn

  • AI cho robot có thể đã có những mô hình nội bộ cỡ GPT-2 hay GPT-3,
    nhưng vì thất bại trong môi trường đời thường là rất nghiêm trọng nên khó công khai chúng
    Ví dụ chỉ cần làm vỡ một cái đĩa trong máy rửa chén thôi cũng đã bị xem là vấn đề lớn

    • Cuối tuần tôi xem lại Bicentennial Man (1999), và cảnh với máy rửa chén rất ấn tượng
      Đây là bộ phim hợp để xem vào thời điểm này
    • Có khi làm vỡ một cái đĩa cũng không phải vấn đề to tát đến thế
      Roomba đời đầu cũng rất lộn xộn nhưng thị trường vẫn chấp nhận, rồi cuối cùng nó vẫn tiến bộ
      Tôi nghĩ điều quan trọng là cứ vào thị trường để thu thập dữ liệu trước, dù chưa hoàn hảo
    • Tôi cũng từng làm vỡ nhiều đĩa trong máy rửa chén
      Chẳng có hệ thống nào hoàn hảo cả
    • Ngay cả tôi là con người mà mỗi tháng cũng làm vỡ đĩa hai lần
      Nếu robot làm tốt hơn thế thì còn là cải thiện ấy chứ
    • Robotics vẫn còn thiếu dữ liệu ở quy mô Internet
      Nói rằng đã có mô hình tầm GPT thì theo tôi là không thành thật
  • Tôi đang phân vân liệu có nên tiếp tục dùng mô hình hiện tại
    cho đến khi Google chính thức phát hành Gemini Flash 3.1 hay không