LANISTR: Khung mới để học từ dữ liệu có cấu trúc và phi cấu trúc
(research.google)• LANISTR là một khung mới cho phép học đa phương thức bằng cách tiếp nhận dữ liệu phi cấu trúc (hình ảnh, văn bản) và dữ liệu có cấu trúc (chuỗi thời gian, bảng biểu), thực hiện căn chỉnh và hợp nhất, rồi cuối cùng tạo ra các dự đoán.
• Đặc biệt, hệ thống này giải quyết các vấn đề như quá khớp và khả năng tổng quát hóa kém khi huấn luyện trên các tập dữ liệu có quy mô hạn chế, cũng như bài toán thiếu một số phương thức trong dữ liệu đa phương thức có từ hai phương thức trở lên.
• Kiến trúc của LANISTR gồm các bộ mã hóa theo từng phương thức và một mô-đun mã hóa-giải mã đa phương thức đóng vai trò cơ chế hợp nhất, sử dụng cross-attention để nắm bắt các mối quan hệ liên phương thức.
• Cốt lõi của phương pháp LANISTR bắt nguồn từ huấn luyện dựa trên masking, được áp dụng ở cả mức đơn phương thức lẫn đa phương thức; có hai loại mục tiêu tiền huấn luyện, gồm mục tiêu masking đơn phương thức và hàm mất mát masking đa phương thức dựa trên độ tương đồng.
• LANISTR đạt được kết quả tiên tiến nhất trên một số tác vụ khó, vượt qua các baseline cạnh tranh trên cả bộ dữ liệu y tế MIMIC-IV và dữ liệu đánh giá Amazon.
• Phương pháp này cho thấy tầm quan trọng của việc học từ dữ liệu có cấu trúc và dữ liệu phi cấu trúc bằng cách sử dụng đồng thời dữ liệu không gắn nhãn và dữ liệu có gắn nhãn, đồng thời chứng minh khả năng chủ động tiếp nhận nguyên trạng mọi phương thức, tận dụng lượng lớn dữ liệu không gắn nhãn trong giai đoạn tiền huấn luyện không giám sát, và xử lý trơn tru các phương thức bị thiếu.
• LANISTR có những ứng dụng tiềm năng trong nhiều lĩnh vực khác nhau, bao gồm chẩn đoán y khoa và dự báo nhu cầu bán lẻ.
Chưa có bình luận nào.