Google đã phát triển mô hình Gemini Robotics như thế nào
(blog.google)- Google DeepMind đã phát triển Gemini Robotics, mô hình AI đa phương thức thế hệ mới dành cho robot có khả năng thực hiện các tác vụ vật lý
- Mô hình này là phiên bản Gemini 2.0 được tinh chỉnh bằng dữ liệu chuyên biệt cho robot, để có thể không chỉ xử lý văn bản, video, âm thanh mà còn thực hiện hành động thực tế
- Robot có thể thực hiện nhiều tác vụ khác nhau như làm salad, chơi cờ caro, gấp giấy và đóng gói hộp cơm trưa
Các ca kiểm thử thực tế và xác nhận tiềm năng
- Đưa ra nhiều yêu cầu tác vụ khác nhau cho robot hai tay ALOHA dùng trong nghiên cứu
- Ví dụ: đặt bút vào trong giày, yêu cầu úp rổ bằng bóng rổ
- Dù là vật thể và tác vụ robot chưa từng thấy trước đó, robot vẫn hiểu yêu cầu và thực hiện thành công ngay từ lần thử đầu tiên
- Khác với các mô hình hiện có, robot có thể hiểu và thực thi các mệnh lệnh vật lý phức tạp bằng ngôn ngữ tự nhiên
Các đặc điểm cốt lõi của Gemini Robotics
- Sở hữu độ linh hoạt cao, khả năng tương tác và năng lực khái quát hóa
- Có thể thích nghi với vật thể, môi trường và chỉ thị mới mà không cần huấn luyện bổ sung
- Đặt nền tảng để hiện thực hóa AI và robot như một tác tử tích hợp thống nhất
- Cung cấp năng lực nhận thức, phán đoán và hành động tương tự con người
Giới thiệu các mô hình cấu thành
-
Gemini Robotics-ER (Embodied Reasoning):
- Dựa trên Gemini 2.0 Flash
- Tạo và thực thi mã thông qua nhận diện vật thể, xác định vị trí, dự đoán quỹ đạo di chuyển, thiết lập kiểu kẹp nắm, v.v.
- Hiện đang được mở cho các đối tác và nhóm thử nghiệm đáng tin cậy
-
Gemini Robotics:
- Mô hình tích hợp thị giác-ngôn ngữ-hành động
- Có thể hiểu cảnh, tương tác với người dùng và thực hiện tác vụ nhiều bước
- Ghi nhận hiệu năng thao tác tay ở mức tiên tiến hàng đầu hiện nay ngay cả trong các tác vụ đòi hỏi thao tác phức tạp và suy luận không gian
Năng lực kỹ thuật cụ thể
- Phát hiện đối tượng 2D và 3D
- Chức năng trỏ/chỉ định
- Tìm điểm tương ứng từ nhiều góc nhìn
- Đạt được năng lực thao tác dựa trên nhiều loại thông tin thị giác khác nhau
Cách tiếp cận huấn luyện và ưu điểm
- Thay vì huấn luyện lặp lại cho một tác vụ đơn lẻ theo cách công nghiệp truyền thống, mô hình chọn học rộng trên nhiều tác vụ khác nhau
- Kết quả là năng lực khái quát hóa xuất hiện một cách tự nhiên
- Có thể áp dụng cho nhiều hình thái robot khác nhau
- Ví dụ: ALOHA (nghiên cứu), Apollo của Apptronik (robot hình người)
Hỗ trợ nhiều hình thái robot khác nhau
- Nhiều loại robot khác nhau có thể thực hiện các tác vụ như đóng gói hộp cơm, lau bảng trắng, nhặt vật thể nhỏ
- Điểm cốt lõi là một mô hình có thể thích nghi với nhiều robot
Tầm nhìn trong tương lai
- Được kỳ vọng hữu ích trong các lĩnh vực công nghiệp đòi hỏi thao tác chính xác hoặc trong môi trường không phù hợp với con người
- Có khả năng phát triển thành robot hữu ích trong môi trường lấy con người làm trung tâm như gia đình
- Trong đời sống thực, robot có thể trở thành một giao diện khác với AI
1 bình luận
Ý kiến trên Hacker News