PaLM-E: Mô hình ngôn ngữ đa phương thức hiện thân

xguru · 2023-03-08T12:11:57+09:00

Các mô hình ngôn ngữ quy mô lớn có thể thực hiện những tác vụ phức tạp, nhưng để cho phép suy luận tổng quát trong thế giới thực như các bài toán robot học thì cần phải có cơ sở nền tảng trong thực tại Đề xuất EMLM nhằm trực tiếp tích hợp các phương thức cảm biến liên tục của thế giới thực vào mô hình ngôn ngữ, để xây dựng mối liên kết giữa từ ngữ và tri giác (Percepts) Xử lý đầu vào là các câu đa phương thức kết hợp mã hóa hình ảnh, ước lượng trạng thái liên tục và đầu vào văn bản "Lấy giúp tôi ít bánh gạo từ trong ngăn kéo": có thể thực hiện cả chuỗi hành động như di chuyển, mở ngăn kéo, tìm và gắp món đồ, đóng ngăn kéo rồi mang tới. Ngay cả khi có người xen vào cản nhẹ giữa chừng, hệ thống vẫn thử lại Mô hình ngôn ngữ lớn nhất là PaLM-E 562B + OK-VQA (dataset for visual question answering)

(palm-e.github.io)

15 điểm bởi xguru 2023-03-08 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình ngôn ngữ quy mô lớn có thể thực hiện những tác vụ phức tạp, nhưng để cho phép suy luận tổng quát trong thế giới thực như các bài toán robot học thì cần phải có cơ sở nền tảng trong thực tại
Đề xuất EMLM nhằm trực tiếp tích hợp các phương thức cảm biến liên tục của thế giới thực vào mô hình ngôn ngữ, để xây dựng mối liên kết giữa từ ngữ và tri giác (Percepts)
Xử lý đầu vào là các câu đa phương thức kết hợp mã hóa hình ảnh, ước lượng trạng thái liên tục và đầu vào văn bản
- "Lấy giúp tôi ít bánh gạo từ trong ngăn kéo": có thể thực hiện cả chuỗi hành động như di chuyển, mở ngăn kéo, tìm và gắp món đồ, đóng ngăn kéo rồi mang tới. Ngay cả khi có người xen vào cản nhẹ giữa chừng, hệ thống vẫn thử lại
Mô hình ngôn ngữ lớn nhất là PaLM-E 562B + OK-VQA (dataset for visual question answering)

1 bình luận

xguru 2023-03-08

Embodied AI là gì?

Đây là lĩnh vực tạo ra tác nhân trong môi trường ảo 3D gọi là trình mô phỏng (Simulator), cho chúng học bằng cách thực hiện nhiều nhiệm vụ khác nhau, sau đó chuyển giao sang máy móc ngoài đời thực như robot (Sim2Real) để có thể thực hiện tốt các nhiệm vụ cụ thể trong thế giới thực.

PaLM-E: Mô hình ngôn ngữ đa phương thức hiện thân

Bài viết liên quan

1 bình luận