6 điểm bởi xguru 2023-06-14 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Để hiệu năng zero-shot của LLM tốt, bộ instruction chất lượng cao là yếu tố bắt buộc, và VLM (mô hình thị giác-ngôn ngữ) cũng vậy
  • Tuy nhiên, hiện nay các bộ instruction vision-language vẫn còn rất hạn chế về số lượng, độ đa dạng và tính sáng tạo
  • Đề xuất MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • Bộ dữ liệu gồm 2,2 triệu lệnh độc nhất lấy từ hình ảnh và video, cùng 2,8 triệu cặp lệnh-phản hồi đa phương thức
  • Otter là VLM quy mô lớn được huấn luyện bằng bộ dữ liệu MIMIC-IT
  • Hỗ trợ 8 ngôn ngữ: tiếng Anh, tiếng Trung, tiếng Hàn, tiếng Nhật, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ả Rập

Chưa có bình luận nào.

Chưa có bình luận nào.