- Các mô hình ngôn ngữ quy mô lớn có thể thực hiện những tác vụ phức tạp, nhưng để cho phép suy luận tổng quát trong thế giới thực như các bài toán robot học thì cần phải có cơ sở nền tảng trong thực tại
- Đề xuất EMLM nhằm trực tiếp tích hợp các phương thức cảm biến liên tục của thế giới thực vào mô hình ngôn ngữ, để xây dựng mối liên kết giữa từ ngữ và tri giác (Percepts)
- Xử lý đầu vào là các câu đa phương thức kết hợp mã hóa hình ảnh, ước lượng trạng thái liên tục và đầu vào văn bản
- "Lấy giúp tôi ít bánh gạo từ trong ngăn kéo": có thể thực hiện cả chuỗi hành động như di chuyển, mở ngăn kéo, tìm và gắp món đồ, đóng ngăn kéo rồi mang tới. Ngay cả khi có người xen vào cản nhẹ giữa chừng, hệ thống vẫn thử lại
- Mô hình ngôn ngữ lớn nhất là PaLM-E 562B + OK-VQA (dataset for visual question answering)
1 bình luận
Embodied AI là gì?