Magma - Mô hình nền tảng cho tác nhân AI đa phương thức
(microsoft.github.io)- Magma là mô hình nền tảng đầu tiên có thể diễn giải đầu vào đa phương thức và liên kết chúng trong môi trường, nhờ đó có thể xử lý các tương tác phức tạp trong cả thế giới ảo lẫn thực
- Không chỉ hiểu hình ảnh và video đơn thuần, mô hình còn tạo ra kế hoạch và thực thi trực quan theo mục tiêu để thực hiện nhiều tác vụ tác nhân AI khác nhau
- Đạt hiệu năng tiên tiến nhất trên nhiều tác vụ đa phương thức như điều hướng UI, thao tác robot, hiểu hình ảnh/video (đặc biệt là hiểu biết và suy luận không gian)
- Phương thức tiền huấn luyện có khả năng mở rộng: học từ dữ liệu video không gán nhãn cùng với dữ liệu tác nhân hiện có để có khả năng khái quát hóa mạnh mẽ, phù hợp cho ứng dụng thực tế
- Dự kiến công bố mã nguồn, mô hình và bản demo điều hướng UI tại MSR Forum (2025.02.25).
Mục tiêu của Magma
- Trí tuệ ngôn ngữ và không-thời gian:
- Khả năng hiểu chính xác hình ảnh và video, rồi từ đó chuyển mục tiêu thành kế hoạch hành động và thực thi
- Hoạt động trong môi trường số và vật lý:
- Có thể thực hiện cả điều hướng web (thao tác UI) và thao tác robot
- AI có thể tự do qua lại giữa môi trường số và vật lý như con người
- Để làm được điều này, nhóm nghiên cứu đã phát triển một bộ dữ liệu huấn luyện mới tận dụng dữ liệu video không gán nhãn và dữ liệu tác nhân hiện có, cùng với một khung tiền huấn luyện học tích hợp văn bản, hình ảnh và hành động để huấn luyện Magma
Cách tiền huấn luyện của Magma
- Magma được huấn luyện thông qua hai cách tiếp cận cốt lõi.
- 1️⃣ Tận dụng dữ liệu huấn luyện dị thể quy mô lớn
- Không chỉ dùng dữ liệu đa phương thức hiện có, dữ liệu điều hướng UI, dữ liệu thao tác robot, mà còn thu thập lượng lớn dữ liệu video không gán nhãn để huấn luyện.
- Loại bỏ chuyển động camera và trích xuất dữ liệu hành động thực tế để mô hình có thể học dự đoán và lập kế hoạch hành động dài hạn.
- 2️⃣ Thiết lập mục tiêu tiền huấn luyện thống nhất
- Văn bản và hành động vốn khác bản chất, và thách thức là kết nối chúng một cách hiệu quả
- Giới thiệu các kỹ thuật học mới như Set-of-Mark, Trace-of-Mark để xây dựng cấu trúc căn chỉnh (Alignment) mạnh mẽ giữa văn bản, hình ảnh và hành động
- Set-of-Mark (SoM): tạo nền tảng hành động hiệu quả trên hình ảnh, bằng cách dự đoán các dấu số cho các nút có thể nhấp trong ảnh chụp màn hình UI, hoặc cho cánh tay robot trong thao tác robot và video con người.
- Trace-of-Mark (ToM): cung cấp tín hiệu giám sát cho thao tác robot và hành động của con người, giúp mô hình hiểu động lực học video theo thời gian và dự đoán trạng thái tương lai trước khi hành động.
Cách sử dụng mô hình
Sử dụng trực tiếp (có thể dùng mà không cần Fine-tuning)
Magma được thiết kế cho mục đích nghiên cứu và có thể được օգտագործել theo các cách sau.
- Sinh văn bản dựa trên hình ảnh/video: có thể tạo mô tả và câu trả lời dựa trên hình ảnh và văn bản đầu vào.
- Lập kế hoạch trực quan (Visual Planning): có thể dự đoán quỹ đạo hành động trong tương lai để đạt được mục tiêu như di chuyển vật thể.
- Chức năng tác nhân:
- Điều hướng UI: ví dụ, dự đoán thao tác UI như "nhấp vào nút tìm kiếm"
- Thao tác robot: dự đoán thao tác 7 bậc tự do (7 DoF) của robot
Tác vụ downstream (sử dụng Fine-tuning)
Magma có thể được huấn luyện bổ sung để phù hợp với các tác vụ cụ thể.
- Gán chú thích ảnh và QA: huấn luyện theo cách của các mô hình ngôn ngữ lớn đa phương thức (LLM) hiện có để tăng cường khả năng hiểu và suy luận không gian.
- Gán chú thích video và QA: có thể tăng cường khả năng hiểu và suy luận theo thời gian đối với dữ liệu video.
- Điều hướng UI: có thể đạt hiệu năng cao khi tối ưu cho các tác vụ điều hướng UI trên web và di động.
- Thao tác robot: thông qua huấn luyện bổ sung cho điều khiển robot, cho thấy hiệu năng vượt qua các mô hình thao tác robot hiện có như OpenVLA.
Thiên lệch (Bias), rủi ro (Risks), giới hạn (Limitations)
- Mô hình này không được thiết kế cho mọi tác vụ downstream.
- Trước khi áp dụng vào trường hợp sử dụng cụ thể, cần đánh giá và điều chỉnh về độ chính xác, an toàn và tính công bằng.
- Đặc biệt trong các kịch bản rủi ro cao, cần tuân thủ luật pháp và quy định hiện hành.
1 bình luận
Ý kiến trên Hacker News