Google DeepMind ra mắt Gemini Robotics

(deepmind.google)

4 điểm bởi GN⁺ 2025-03-13 | 1 bình luận | Chia sẻ qua WhatsApp

Đưa Gemini 2.0 vào lĩnh vực robot học và công bố mô hình thị giác-ngôn ngữ-hành động (VLA) cùng mô hình ER có khả năng hiểu không gian
Google DeepMind đã không ngừng phát triển năng lực suy luận đa phương thức sử dụng văn bản, hình ảnh, âm thanh và video để giải quyết các vấn đề phức tạp
Tuy nhiên, đến nay những năng lực này vẫn chỉ giới hạn trong môi trường số
Để AI trở nên hữu ích trong thế giới vật lý, cần có năng lực "suy luận nhập thể (embodied reasoning)" để hiểu và phản ứng với môi trường như con người, đồng thời thực hiện công việc một cách an toàn
Theo đó, công ty đã công bố hai mô hình mới
- Gemini Robotics: mô hình thị giác-ngôn ngữ-hành động (VLA) dựa trên Gemini 2.0, có thể trực tiếp điều khiển robot
- Gemini Robotics-ER: mô hình cung cấp khả năng hiểu không gian và điều khiển robot được cải thiện
Đang hợp tác với Apptronik để phát triển thế hệ robot hình người tiếp theo
Đang phối hợp với một số người dùng thử nghiệm đáng tin cậy để cải thiện hiệu năng mô hình

Gemini Robotics: mô hình thị giác-ngôn ngữ-hành động tiên tiến nhất

1. Khả năng khái quát hóa (Generality)

Có thể thích nghi trong các tình huống mới và thực hiện nhiều tác vụ khác nhau
Hoạt động xuất sắc với vật thể, mệnh lệnh và môi trường mới
Theo báo cáo kỹ thuật, hiệu năng khái quát hóa được cải thiện hơn 2 lần so với các mô hình VLA hiện có

2. Khả năng tương tác (Interactivity)

Có thể hiểu và phản hồi các lệnh ngôn ngữ tự nhiên
Hỗ trợ nhiều ngôn ngữ và các câu lệnh đời thường
Có thể phản ứng với thay đổi của môi trường theo thời gian thực và điều chỉnh hành động
Ngay cả khi vật thể bị trượt khỏi tay hoặc thay đổi vị trí, hệ thống vẫn có thể lập kế hoạch lại ngay và tiếp tục công việc

3. Độ khéo léo (Dexterity)

Tăng cường khả năng thực hiện các thao tác tinh vi
Có thể thực hiện các tác vụ phức tạp nhiều bước (ví dụ: gấp giấy, cho đồ ăn vặt vào túi zip)

4. Có thể áp dụng cho nhiều dạng robot (Multiple embodiments)

Có thể dễ dàng áp dụng cho nhiều hình thái robot khác nhau
Đã xác nhận hoạt động trên robot nền tảng ALOHA 2, robot dựa trên Franka và robot hình người Apollo

Gemini Robotics-ER: khả năng hiểu không gian được tăng cường

Tăng cường mạnh mẽ khả năng nhận thức không gian và phát hiện 3D của Gemini 2.0
Cho phép robot nhận biết vị trí của vật thể và thao tác theo cách phù hợp
Kết hợp khả năng sinh mã → robot có thể tức thời tạo ra cách thực hiện tác vụ mới
Tỷ lệ thành công được cải thiện 2~3 lần so với Gemini 2.0
Ví dụ trình diễn: nhận diện tay cầm của cốc cà phê, tiếp cận theo lộ trình an toàn rồi nhấc lên

Chiến lược tăng cường an toàn cho AI và robot

Tập trung giải quyết các vấn đề an toàn vật lý của robot
Robot thực hiện các biện pháp an toàn truyền thống như tránh va chạm, giới hạn lực tiếp xúc và duy trì ổn định động
Gemini Robotics-ER có thể đánh giá có nên thực hiện tác vụ hay không khi có lo ngại về an toàn, rồi phản ứng phù hợp
Phát hành bộ dữ liệu ASIMOV mới → nhằm đánh giá và cải thiện độ an toàn của hành vi robot
Hợp tác với hội đồng nội bộ về trách nhiệm và an toàn cùng các chuyên gia bên ngoài để giải quyết các vấn đề đạo đức

Các đối tác chính và kế hoạch sắp tới

Hợp tác với Apptronik để phát triển robot hình người
Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools và các công ty khác đang thử nghiệm Gemini Robotics-ER
Có kế hoạch tiếp tục thúc đẩy sự phát triển của AI và công nghệ robot trong tương lai

Liên kết liên quan

1 bình luận

GN⁺ 2025-03-13

Ý kiến trên Hacker News

Có link đến cả playlist để xem 20 video demo trên YouTube
Tự hỏi không biết có ai còn nhớ rằng trước đây các demo ấn tượng của Google Gemini từng bị dàn dựng hay không
Từng nghĩ các định luật robot của Asimov là một đạo cụ SF thú vị nhưng khá xa rời điện toán thực tế
- Hóa ra Asimov đã đi trước thời đại và đang viết prompt cho LLM
Nếu việc phân loại rác trở nên dễ hơn và nhanh hơn, có thể cải thiện hiệu quả tái chế gấp 100 lần
- Đã có nơi làm như vậy rồi, nhưng vẫn còn nhiều công việc đơn giản mà robot có thể làm để cải thiện thế giới
Cảnh robot lắp dây đai tròn vào puli ở cuối video chính thật ấn tượng
- Có lẽ dữ liệu huấn luyện có nhiều hành động như vậy, nhưng nó vẫn tạo cảm giác trực quan hơn so với gấp áo sơ mi hay phân loại đồ vật
- Có vẻ chức năng tự động phát/tạm dừng/cuộn video trên trang đang bị lỗi
Muốn có một thiết bị hoạt động như trình dịch hai chiều theo thời gian thực
- Sẽ thật tuyệt nếu có thể sống ở đó mà không phải tốn thời gian học tiếng Đức hay ngôn ngữ khác
- Nếu chỉ với tiếng Anh mà vẫn có thể gọi món ăn và xử lý thủ tục hành chính thì sẽ rất đáng kinh ngạc
Ai rồi cũng sẽ có thể đặt mua một cánh tay robot từ Trung Quốc, lắp trong gara và lập trình nó bằng văn bản như với LLM
- Đã đến lúc phải nghĩ lớn hơn
Không chắc video thể hiện hiệu năng thực tế hay chỉ là chiến lược marketing, nhưng vẫn rất ấn tượng
- Gợi nhớ đến các cánh tay robot trong Iron Man 1
Khi robot đủ khéo để chuẩn bị bữa ăn, đó sẽ là bước ngoặt của thị trường việc làm
- Mô hình hiện tại chưa đạt tới mức đó, nhưng sẽ đáng theo dõi xem liệu các khoản đầu tư lớn vào việc tạo dữ liệu tổng hợp trong vài năm tới có đưa chúng đến gần mức đó hay không
Vấn đề của Google là mảng quảng cáo mang lại quá nhiều doanh thu, khiến các sản phẩm khác trở nên không còn nhiều ý nghĩa
- Họ sẽ dùng những gì học được từ robot để tăng doanh thu quảng cáo

Google DeepMind ra mắt Gemini Robotics

Gemini Robotics: mô hình thị giác-ngôn ngữ-hành động tiên tiến nhất

1. Khả năng khái quát hóa (Generality)

2. Khả năng tương tác (Interactivity)

3. Độ khéo léo (Dexterity)

4. Có thể áp dụng cho nhiều dạng robot (Multiple embodiments)

Gemini Robotics-ER: khả năng hiểu không gian được tăng cường

Chiến lược tăng cường an toàn cho AI và robot

Các đối tác chính và kế hoạch sắp tới

Liên kết liên quan

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News