- Bộ dữ liệu nền tảng và benchmark nhằm hỗ trợ nghiên cứu học từ video và nhận thức đa phương thức
- Đồng thời ghi lại góc nhìn thứ nhất "Egocentric (lấy bản thân làm trung tâm)" thông qua camera đeo trên người của người tham gia và nhiều góc nhìn "Exocentric (từ bên ngoài)" từ các camera xung quanh người tham gia
- Hai góc nhìn này bổ sung cho nhau: Ego cho thấy những gì người tham gia nhìn và nghe, còn Exo hé lộ khung cảnh và ngữ cảnh xung quanh
- Kết hợp hai góc nhìn này có thể mang lại cho các mô hình AI một cách nhìn mới về những kỹ năng phức tạp của con người
- Đây là nỗ lực kéo dài 2 năm của FAIR (Fundamental Artificial Intelligence Research), Project Aria của Meta và 15 đối tác đại học
- Dữ liệu được ghi lại với sự hỗ trợ của hơn 800 người tham gia có kỹ năng tại Mỹ, Nhật Bản, Colombia, Singapore, Ấn Độ và Canada
- Công bố mã nguồn mở dữ liệu gồm hơn 1.400 giờ video cùng chú thích cho các tác vụ benchmark mới
- Ego-Exo4D tập trung vào các hoạt động lành nghề của con người như thể thao, âm nhạc, nấu ăn, nhảy múa và sửa xe đạp
- Việc nâng cao khả năng của AI trong hiểu mức độ thành thạo của con người từ video có thể mở ra nhiều ứng dụng
- Ví dụ, trong các hệ thống AR, người đeo kính thông minh có thể nhanh chóng học một kỹ năng mới dưới sự hướng dẫn của huấn luyện viên AI ảo
- Ego-Exo4D là bộ dữ liệu công khai lớn nhất về video góc nhìn thứ nhất và thứ ba được đồng bộ theo thời gian
- Để xây dựng bộ dữ liệu này, nhóm đã tuyển các chuyên gia ở nhiều lĩnh vực khác nhau và có sự tham gia của các chuyên gia ngoài đời thực
- Không chỉ là bộ dữ liệu đa góc nhìn, Ego-Exo4D còn là bộ dữ liệu đa phương thức; mọi video ego được ghi lại bằng kính Aria của Meta đều bao gồm âm thanh 7 kênh được căn chỉnh theo thời gian, thiết bị đo quán tính (IMU), hai camera góc rộng đen trắng và nhiều dữ liệu khác
Chưa có bình luận nào.