RoboCat - tác nhân robot tự cải thiện

kuroneko · 2023-06-21T10:24:42+09:00

Google DeepMind giới thiệu RoboCat, một hệ thống tự học thông qua việc thực hiện nhiều tác vụ khác nhau bằng cánh tay robot. Hệ thống này dựa trên Gato, một mô hình đa phương thức có thể hoạt động cả trong môi trường thực và môi trường mô phỏng (gato trong tiếng Tây Ban Nha nghĩa là 'mèo'). Để tự cải thiện, trước tiên hệ thống thu thập dữ liệu thực cho tác vụ mới. Từ dữ liệu thực, tinh chỉnh mô hình nền tảng để tạo ra một tác nhân phái sinh. Tác nhân mới luyện tập khoảng 10.000 lần để tạo bộ dữ liệu huấn luyện. Tích hợp dữ liệu thực và dữ liệu tự tạo vào bộ dữ liệu huấn luyện của RoboCat. Huấn luyện phiên bản RoboCat mới. Nhờ đó, hệ thống có thể thích nghi trong vài giờ với các cánh tay robot mới có nhiều khớp hơn hoặc nhiều ngón kẹp hơn. Ngoài ra còn hình thành một vòng lặp huấn luyện tích cực: mô hình ban đầu chỉ đạt tỷ lệ thành công 36% ở một số tác vụ, nhưng sau đó tăng hơn gấp đôi lên 74%.

(deepmind.com)

10 điểm bởi kuroneko 2023-06-21 | 3 bình luận | Chia sẻ qua WhatsApp

Google DeepMind giới thiệu RoboCat, một hệ thống tự học thông qua việc thực hiện nhiều tác vụ khác nhau bằng cánh tay robot.
Hệ thống này dựa trên Gato, một mô hình đa phương thức có thể hoạt động cả trong môi trường thực và môi trường mô phỏng (gato trong tiếng Tây Ban Nha nghĩa là 'mèo').
- Để tự cải thiện, trước tiên hệ thống thu thập dữ liệu thực cho tác vụ mới.
- Từ dữ liệu thực, tinh chỉnh mô hình nền tảng để tạo ra một tác nhân phái sinh.
- Tác nhân mới luyện tập khoảng 10.000 lần để tạo bộ dữ liệu huấn luyện.
- Tích hợp dữ liệu thực và dữ liệu tự tạo vào bộ dữ liệu huấn luyện của RoboCat.
- Huấn luyện phiên bản RoboCat mới.
Nhờ đó, hệ thống có thể thích nghi trong vài giờ với các cánh tay robot mới có nhiều khớp hơn hoặc nhiều ngón kẹp hơn.
Ngoài ra còn hình thành một vòng lặp huấn luyện tích cực: mô hình ban đầu chỉ đạt tỷ lệ thành công 36% ở một số tác vụ, nhưng sau đó tăng hơn gấp đôi lên 74%.

3 bình luận

nicewook 2023-06-21

Cuối cùng thì cũng đã mở ra một sân chơi nơi trí tuệ nhân tạo gặp gỡ và trải nghiệm thế giới thực.

kuroneko 2023-06-21

Bình luận trong chuỗi HN buồn cười quá.
Tôi cũng đã nghĩ gần như y hệt, kiểu như: Có phải chỉ mình tôi mong đợi một con mèo robot không? Hơi thất vọng một chút...

Ít nhất họ cũng nên dán một miếng sticker hình mèo lên cánh tay robot.

kuroneko 2023-06-21

Tóm tắt bài báo cho ra như sau.

RoboCat là một tác nhân tự cải thiện dành cho thao tác robot. Hệ thống này được huấn luyện trên bộ dữ liệu lớn và đa dạng về các tác vụ robot, sử dụng nhiều môi trường mô phỏng cùng với cánh tay robot thực tế.

Các mục tiêu chính của RoboCat như sau.

Khái quát hóa sang tác vụ và robot mới với lượng dữ liệu tối thiểu. RoboCat có thể thích nghi với tác vụ và robot mới chỉ bằng 100 đến 1000 ví dụ trình diễn.
Tự cải thiện thông qua quá trình lặp. Mô hình RoboCat đã được tinh chỉnh được dùng để tạo thêm dữ liệu huấn luyện, và dữ liệu này được thêm vào tập huấn luyện để cải thiện tác nhân tổng quát.
Xử lý nhiều cách triển khai có tác vụ và không gian quan sát khác nhau. RoboCat được thử nghiệm trên các cánh tay có tối đa 14 bậc tự do và các loại gripper khác nhau.
Giải quyết nhiều tác vụ thao tác khéo léo đa dạng với các vật thể có hình dạng, kích thước và kết cấu khác nhau. Các tác vụ bao gồm xếp chồng, lắp vào, nâng lên, v.v.

Các kết quả chính như sau.

Khi dữ liệu huấn luyện của RoboCat tăng lên và trở nên đa dạng hơn, khả năng chuyển giao giữa các tác vụ được cải thiện, và việc thích nghi với tác vụ mới cũng hiệu quả hơn.
RoboCat có thể thích nghi thành công với tác vụ và robot mới chỉ với một lượng nhỏ dữ liệu trình diễn, đồng thời cần ít công sức huấn luyện hơn so với các đường cơ sở.
Bằng cách mở rộng dữ liệu huấn luyện thông qua tự cải thiện, RoboCat hoạt động tốt hơn trên các tác vụ huấn luyện ban đầu và được tinh chỉnh tốt hơn.

Tóm lại, RoboCat, một tác nhân tự cải thiện dành cho thao tác robot được huấn luyện trên bộ dữ liệu lớn và đa dạng, cho thấy nó có thể khái quát hóa sang tác vụ và robot mới với lượng dữ liệu tối thiểu thông qua tinh chỉnh và tự cải thiện. Khả năng tận dụng trải nghiệm robot không đồng nhất ở quy mô lớn của hệ thống này có tiềm năng tạo ra thay đổi lớn cho việc học của robot.

RoboCat - tác nhân robot tự cải thiện

Bài viết liên quan

3 bình luận