Magma - Mô hình nền tảng cho tác nhân AI đa phương thức

(microsoft.github.io)

3 điểm bởi GN⁺ 2025-02-21 | 1 bình luận | Chia sẻ qua WhatsApp

Magma là mô hình nền tảng đầu tiên có thể diễn giải đầu vào đa phương thức và liên kết chúng trong môi trường, nhờ đó có thể xử lý các tương tác phức tạp trong cả thế giới ảo lẫn thực
Không chỉ hiểu hình ảnh và video đơn thuần, mô hình còn tạo ra kế hoạch và thực thi trực quan theo mục tiêu để thực hiện nhiều tác vụ tác nhân AI khác nhau
Đạt hiệu năng tiên tiến nhất trên nhiều tác vụ đa phương thức như điều hướng UI, thao tác robot, hiểu hình ảnh/video (đặc biệt là hiểu biết và suy luận không gian)
Phương thức tiền huấn luyện có khả năng mở rộng: học từ dữ liệu video không gán nhãn cùng với dữ liệu tác nhân hiện có để có khả năng khái quát hóa mạnh mẽ, phù hợp cho ứng dụng thực tế
Dự kiến công bố mã nguồn, mô hình và bản demo điều hướng UI tại MSR Forum (2025.02.25).

Mục tiêu của Magma

Trí tuệ ngôn ngữ và không-thời gian:
- Khả năng hiểu chính xác hình ảnh và video, rồi từ đó chuyển mục tiêu thành kế hoạch hành động và thực thi
Hoạt động trong môi trường số và vật lý:
- Có thể thực hiện cả điều hướng web (thao tác UI) và thao tác robot
- AI có thể tự do qua lại giữa môi trường số và vật lý như con người
Để làm được điều này, nhóm nghiên cứu đã phát triển một bộ dữ liệu huấn luyện mới tận dụng dữ liệu video không gán nhãn và dữ liệu tác nhân hiện có, cùng với một khung tiền huấn luyện học tích hợp văn bản, hình ảnh và hành động để huấn luyện Magma

Cách tiền huấn luyện của Magma

Magma được huấn luyện thông qua hai cách tiếp cận cốt lõi.
1️⃣ Tận dụng dữ liệu huấn luyện dị thể quy mô lớn
- Không chỉ dùng dữ liệu đa phương thức hiện có, dữ liệu điều hướng UI, dữ liệu thao tác robot, mà còn thu thập lượng lớn dữ liệu video không gán nhãn để huấn luyện.
- Loại bỏ chuyển động camera và trích xuất dữ liệu hành động thực tế để mô hình có thể học dự đoán và lập kế hoạch hành động dài hạn.
2️⃣ Thiết lập mục tiêu tiền huấn luyện thống nhất
- Văn bản và hành động vốn khác bản chất, và thách thức là kết nối chúng một cách hiệu quả
- Giới thiệu các kỹ thuật học mới như Set-of-Mark, Trace-of-Mark để xây dựng cấu trúc căn chỉnh (Alignment) mạnh mẽ giữa văn bản, hình ảnh và hành động
  - Set-of-Mark (SoM): tạo nền tảng hành động hiệu quả trên hình ảnh, bằng cách dự đoán các dấu số cho các nút có thể nhấp trong ảnh chụp màn hình UI, hoặc cho cánh tay robot trong thao tác robot và video con người.
  - Trace-of-Mark (ToM): cung cấp tín hiệu giám sát cho thao tác robot và hành động của con người, giúp mô hình hiểu động lực học video theo thời gian và dự đoán trạng thái tương lai trước khi hành động.

Cách sử dụng mô hình

Sử dụng trực tiếp (có thể dùng mà không cần Fine-tuning)

Magma được thiết kế cho mục đích nghiên cứu và có thể được օգտագործել theo các cách sau.

Sinh văn bản dựa trên hình ảnh/video: có thể tạo mô tả và câu trả lời dựa trên hình ảnh và văn bản đầu vào.
Lập kế hoạch trực quan (Visual Planning): có thể dự đoán quỹ đạo hành động trong tương lai để đạt được mục tiêu như di chuyển vật thể.
Chức năng tác nhân:
- Điều hướng UI: ví dụ, dự đoán thao tác UI như "nhấp vào nút tìm kiếm"
- Thao tác robot: dự đoán thao tác 7 bậc tự do (7 DoF) của robot

Tác vụ downstream (sử dụng Fine-tuning)

Magma có thể được huấn luyện bổ sung để phù hợp với các tác vụ cụ thể.

Gán chú thích ảnh và QA: huấn luyện theo cách của các mô hình ngôn ngữ lớn đa phương thức (LLM) hiện có để tăng cường khả năng hiểu và suy luận không gian.
Gán chú thích video và QA: có thể tăng cường khả năng hiểu và suy luận theo thời gian đối với dữ liệu video.
Điều hướng UI: có thể đạt hiệu năng cao khi tối ưu cho các tác vụ điều hướng UI trên web và di động.
Thao tác robot: thông qua huấn luyện bổ sung cho điều khiển robot, cho thấy hiệu năng vượt qua các mô hình thao tác robot hiện có như OpenVLA.

Thiên lệch (Bias), rủi ro (Risks), giới hạn (Limitations)

Mô hình này không được thiết kế cho mọi tác vụ downstream.
Trước khi áp dụng vào trường hợp sử dụng cụ thể, cần đánh giá và điều chỉnh về độ chính xác, an toàn và tính công bằng.
Đặc biệt trong các kịch bản rủi ro cao, cần tuân thủ luật pháp và quy định hiện hành.

1 bình luận

GN⁺ 2025-02-21

Ý kiến trên Hacker News

Cảm ơn mọi người đã quan tâm đến dự án Magma. Chúng tôi sẽ dần công khai mã cho suy luận, huấn luyện, đánh giá và tiền xử lý dữ liệu, và việc này sẽ hoàn tất vào thứ Ba tuần tới
Tốc độ phát triển của các tác nhân đa phương thức thật ấn tượng. OpenVLA ra mắt vào tháng 6 năm 2024 và khi đó là hiện đại nhất. Sau 8 tháng, tỷ lệ thành công trong các tác vụ như "Pick Place Hotdog Sausage" đã tăng từ 2/10 lên 6/10
Robot công nghiệp hiệu quả vì chúng không bắt chước hành vi của con người. Vì vậy, tôi khó hiểu đề xuất dạy robot hành vi của con người có ý nghĩa gì. Robot gia dụng sẽ cần các công cụ hiệu quả. Sẽ cần những cỗ máy mới khác với máy giặt, lò nướng và máy rửa bát hiện nay
Khả năng đa phương thức, đặc biệt là dự đoán hành động tiếp theo, rất ấn tượng. Tôi đang chờ xem liệu tính năng này có được công bố mã nguồn mở trên GitHub hay không. Tôi cũng tò mò vì sao lại có tên là Magma
Đây thực sự là một mô hình rất thú vị. Tôi mong được dùng thử. Nhưng điều tôi muốn là một mô hình tác nhân đa phương thức có thể tạo embedding cho các mô hình điều khiển humanoid như Meta motivo. Meta motivo là một mô hình đồ chơi được huấn luyện trên bộ xương SMPL, nên bị hạn chế chức năng vì không có ngón tay. Có thể đã dùng các mô hình tiên tiến hơn như SMPL-X, nhưng do thiếu dữ liệu chuyển động mở bao gồm các chuyển động ngón tay chính xác, nên khó huấn luyện một mô hình thao tác mạnh
Phần lớn các bộ dữ liệu chuyển động hiện có bắt nguồn từ các thiết lập motion capture học thuật và không tập trung vào các tác vụ thao tác. Tôi tin rằng những tiến bộ của 3D HPE từ video 2D sẽ lấp đầy khoảng trống này. Nếu có thể tiếp cận hàng nghìn giờ video, ta có thể xây dựng một bộ dữ liệu chuyển động quy mô lớn bao quát nhiều tương tác thực tế đa dạng
Điều này sẽ mở ra hai thành phần cần thiết để huấn luyện một mô hình tác nhân tạo embedding mà các mô hình điều khiển có thể đọc được, giúp mô hình hóa chính xác chuyển động của bàn tay và các khớp ngón tay. Xét đến sự tiến bộ nhanh chóng của 3D HPE SoTA từ video 2D và khối lượng khổng lồ của video trực tuyến, tôi kỳ vọng trong tương lai gần sẽ thấy robot hình người có năng lực thao tác tốt
Trong video lau cốc, người đó trông như chỉ giả vờ rửa cốc nhưng lại có vẻ không muốn làm ướt tay. Tôi tự hỏi khi nào mô hình có thể nắm bắt được những điều tinh tế như vậy
Tôi thắc mắc vì sao các mô hình đa phương thức lại không tự tạo ảnh một cách linh hoạt. Có vẻ như chúng chuyển việc tạo ảnh sang một mô hình khác. Chúng không thực sự biết rõ trong ảnh mà chúng tạo ra có gì, dù lại có thể chỉnh sửa ảnh
Các tác nhân đa phương thức vốn nổi tiếng là thất bại trong các tác vụ dài hạn. Tôi tò mò Magma thể hiện ra sao
Tôi tự hỏi liệu có mô hình đa phương thức nào được huấn luyện cho suy luận hay không
Tôi tự hỏi đã có nghiên cứu nào về huấn luyện tăng dần chưa. Đây có thể là một lựa chọn thay thế cho RAG để dùng trong robot