- Để hiệu năng zero-shot của LLM tốt, bộ instruction chất lượng cao là yếu tố bắt buộc, và VLM (mô hình thị giác-ngôn ngữ) cũng vậy
- Tuy nhiên, hiện nay các bộ instruction vision-language vẫn còn rất hạn chế về số lượng, độ đa dạng và tính sáng tạo
- Đề xuất MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- Bộ dữ liệu gồm 2,2 triệu lệnh độc nhất lấy từ hình ảnh và video, cùng 2,8 triệu cặp lệnh-phản hồi đa phương thức
- Otter là VLM quy mô lớn được huấn luyện bằng bộ dữ liệu MIMIC-IT
- Hỗ trợ 8 ngôn ngữ: tiếng Anh, tiếng Trung, tiếng Hàn, tiếng Nhật, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ả Rập
Chưa có bình luận nào.