15 điểm bởi xguru 2023-03-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các mô hình ngôn ngữ quy mô lớn có thể thực hiện những tác vụ phức tạp, nhưng để cho phép suy luận tổng quát trong thế giới thực như các bài toán robot học thì cần phải có cơ sở nền tảng trong thực tại
  • Đề xuất EMLM nhằm trực tiếp tích hợp các phương thức cảm biến liên tục của thế giới thực vào mô hình ngôn ngữ, để xây dựng mối liên kết giữa từ ngữ và tri giác (Percepts)
  • Xử lý đầu vào là các câu đa phương thức kết hợp mã hóa hình ảnh, ước lượng trạng thái liên tục và đầu vào văn bản
    • "Lấy giúp tôi ít bánh gạo từ trong ngăn kéo": có thể thực hiện cả chuỗi hành động như di chuyển, mở ngăn kéo, tìm và gắp món đồ, đóng ngăn kéo rồi mang tới. Ngay cả khi có người xen vào cản nhẹ giữa chừng, hệ thống vẫn thử lại
  • Mô hình ngôn ngữ lớn nhất là PaLM-E 562B + OK-VQA (dataset for visual question answering)

1 bình luận

 
xguru 2023-03-08

Embodied AI là gì?

Đây là lĩnh vực tạo ra tác nhân trong môi trường ảo 3D gọi là trình mô phỏng (Simulator), cho chúng học bằng cách thực hiện nhiều nhiệm vụ khác nhau, sau đó chuyển giao sang máy móc ngoài đời thực như robot (Sim2Real) để có thể thực hiện tốt các nhiệm vụ cụ thể trong thế giới thực.