- Đưa Gemini 2.0 vào lĩnh vực robot học và công bố mô hình thị giác-ngôn ngữ-hành động (VLA) cùng mô hình ER có khả năng hiểu không gian
- Google DeepMind đã không ngừng phát triển năng lực suy luận đa phương thức sử dụng văn bản, hình ảnh, âm thanh và video để giải quyết các vấn đề phức tạp
- Tuy nhiên, đến nay những năng lực này vẫn chỉ giới hạn trong môi trường số
- Để AI trở nên hữu ích trong thế giới vật lý, cần có năng lực "suy luận nhập thể (embodied reasoning)" để hiểu và phản ứng với môi trường như con người, đồng thời thực hiện công việc một cách an toàn
- Theo đó, công ty đã công bố hai mô hình mới
- Gemini Robotics: mô hình thị giác-ngôn ngữ-hành động (VLA) dựa trên Gemini 2.0, có thể trực tiếp điều khiển robot
- Gemini Robotics-ER: mô hình cung cấp khả năng hiểu không gian và điều khiển robot được cải thiện
- Đang hợp tác với Apptronik để phát triển thế hệ robot hình người tiếp theo
- Đang phối hợp với một số người dùng thử nghiệm đáng tin cậy để cải thiện hiệu năng mô hình
Gemini Robotics: mô hình thị giác-ngôn ngữ-hành động tiên tiến nhất
1. Khả năng khái quát hóa (Generality)
- Có thể thích nghi trong các tình huống mới và thực hiện nhiều tác vụ khác nhau
- Hoạt động xuất sắc với vật thể, mệnh lệnh và môi trường mới
- Theo báo cáo kỹ thuật, hiệu năng khái quát hóa được cải thiện hơn 2 lần so với các mô hình VLA hiện có
2. Khả năng tương tác (Interactivity)
- Có thể hiểu và phản hồi các lệnh ngôn ngữ tự nhiên
- Hỗ trợ nhiều ngôn ngữ và các câu lệnh đời thường
- Có thể phản ứng với thay đổi của môi trường theo thời gian thực và điều chỉnh hành động
- Ngay cả khi vật thể bị trượt khỏi tay hoặc thay đổi vị trí, hệ thống vẫn có thể lập kế hoạch lại ngay và tiếp tục công việc
3. Độ khéo léo (Dexterity)
- Tăng cường khả năng thực hiện các thao tác tinh vi
- Có thể thực hiện các tác vụ phức tạp nhiều bước (ví dụ: gấp giấy, cho đồ ăn vặt vào túi zip)
4. Có thể áp dụng cho nhiều dạng robot (Multiple embodiments)
- Có thể dễ dàng áp dụng cho nhiều hình thái robot khác nhau
- Đã xác nhận hoạt động trên robot nền tảng ALOHA 2, robot dựa trên Franka và robot hình người Apollo
Gemini Robotics-ER: khả năng hiểu không gian được tăng cường
- Tăng cường mạnh mẽ khả năng nhận thức không gian và phát hiện 3D của Gemini 2.0
- Cho phép robot nhận biết vị trí của vật thể và thao tác theo cách phù hợp
- Kết hợp khả năng sinh mã → robot có thể tức thời tạo ra cách thực hiện tác vụ mới
- Tỷ lệ thành công được cải thiện 2~3 lần so với Gemini 2.0
- Ví dụ trình diễn: nhận diện tay cầm của cốc cà phê, tiếp cận theo lộ trình an toàn rồi nhấc lên
Chiến lược tăng cường an toàn cho AI và robot
- Tập trung giải quyết các vấn đề an toàn vật lý của robot
- Robot thực hiện các biện pháp an toàn truyền thống như tránh va chạm, giới hạn lực tiếp xúc và duy trì ổn định động
- Gemini Robotics-ER có thể đánh giá có nên thực hiện tác vụ hay không khi có lo ngại về an toàn, rồi phản ứng phù hợp
- Phát hành bộ dữ liệu ASIMOV mới → nhằm đánh giá và cải thiện độ an toàn của hành vi robot
- Hợp tác với hội đồng nội bộ về trách nhiệm và an toàn cùng các chuyên gia bên ngoài để giải quyết các vấn đề đạo đức
Các đối tác chính và kế hoạch sắp tới
- Hợp tác với Apptronik để phát triển robot hình người
- Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools và các công ty khác đang thử nghiệm Gemini Robotics-ER
- Có kế hoạch tiếp tục thúc đẩy sự phát triển của AI và công nghệ robot trong tương lai
Liên kết liên quan
1 bình luận
Ý kiến trên Hacker News