Microsoft Kosmos-1: MLLM đa phương thức

xguru · 2023-03-02T09:56:41+09:00

Mô hình Ngôn ngữ Lớn Đa phương thức (MLLM) có khả năng nhận biết các định dạng tổng quát, học theo ngữ cảnh (few-shot) và làm theo chỉ dẫn (zero-shot) Mô hình được huấn luyện bằng văn bản, hình ảnh, các cặp hình ảnh-phụ đề và thể hiện hiệu năng ấn tượng trong các tác vụ dưới đây Hiểu và tạo ngôn ngữ, NLP không cần OCR (nhận diện trực tiếp từ hình ảnh tài liệu) Đối thoại đa phương thức, tạo chú thích ảnh, trả lời câu hỏi trực quan Các tác vụ thị giác như nhận diện hình ảnh kèm mô tả (chỉ định phân loại thông qua hướng dẫn bằng văn bản) MLLM có thể hưởng lợi từ chuyển giao xuyên phương thức (truyền tri thức từ ngôn ngữ sang đa phương thức, và từ đa phương thức sang ngôn ngữ)

(arxiv.org)

9 điểm bởi xguru 2023-03-02 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình Ngôn ngữ Lớn Đa phương thức (MLLM) có khả năng nhận biết các định dạng tổng quát, học theo ngữ cảnh (few-shot) và làm theo chỉ dẫn (zero-shot)
Mô hình được huấn luyện bằng văn bản, hình ảnh, các cặp hình ảnh-phụ đề và thể hiện hiệu năng ấn tượng trong các tác vụ dưới đây
1. Hiểu và tạo ngôn ngữ, NLP không cần OCR (nhận diện trực tiếp từ hình ảnh tài liệu)
2. Đối thoại đa phương thức, tạo chú thích ảnh, trả lời câu hỏi trực quan
3. Các tác vụ thị giác như nhận diện hình ảnh kèm mô tả (chỉ định phân loại thông qua hướng dẫn bằng văn bản)
MLLM có thể hưởng lợi từ chuyển giao xuyên phương thức (truyền tri thức từ ngôn ngữ sang đa phương thức, và từ đa phương thức sang ngôn ngữ)

1 bình luận

xguru 2023-03-02

Repo: https://github.com/microsoft/unilm

Microsoft Kosmos-1: MLLM đa phương thức

Bài viết liên quan

1 bình luận