- Mô hình Ngôn ngữ Lớn Đa phương thức (MLLM) có khả năng nhận biết các định dạng tổng quát, học theo ngữ cảnh (few-shot) và làm theo chỉ dẫn (zero-shot)
- Mô hình được huấn luyện bằng văn bản, hình ảnh, các cặp hình ảnh-phụ đề và thể hiện hiệu năng ấn tượng trong các tác vụ dưới đây
- Hiểu và tạo ngôn ngữ, NLP không cần OCR (nhận diện trực tiếp từ hình ảnh tài liệu)
- Đối thoại đa phương thức, tạo chú thích ảnh, trả lời câu hỏi trực quan
- Các tác vụ thị giác như nhận diện hình ảnh kèm mô tả (chỉ định phân loại thông qua hướng dẫn bằng văn bản)
- MLLM có thể hưởng lợi từ chuyển giao xuyên phương thức (truyền tri thức từ ngôn ngữ sang đa phương thức, và từ đa phương thức sang ngôn ngữ)
1 bình luận
Repo: https://github.com/microsoft/unilm