Otter: mô hình đa phương thức có thể tinh chỉnh theo lệnh trong ngữ cảnh

xguru · 2023-06-14T10:16:01+09:00

Để hiệu năng zero-shot của LLM tốt, bộ instruction chất lượng cao là yếu tố bắt buộc, và VLM (mô hình thị giác-ngôn ngữ) cũng vậy Tuy nhiên, hiện nay các bộ instruction vision-language vẫn còn rất hạn chế về số lượng, độ đa dạng và tính sáng tạo Đề xuất MIMIC-IT (MultI-Modal In-Context Instruction Tuning) Bộ dữ liệu gồm 2,2 triệu lệnh độc nhất lấy từ hình ảnh và video, cùng 2,8 triệu cặp lệnh-phản hồi đa phương thức Otter là VLM quy mô lớn được huấn luyện bằng bộ dữ liệu MIMIC-IT Hỗ trợ 8 ngôn ngữ: tiếng Anh, tiếng Trung, tiếng Hàn, tiếng Nhật, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ả Rập

(github.com/Luodian)

6 điểm bởi xguru 2023-06-14 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Để hiệu năng zero-shot của LLM tốt, bộ instruction chất lượng cao là yếu tố bắt buộc, và VLM (mô hình thị giác-ngôn ngữ) cũng vậy
Tuy nhiên, hiện nay các bộ instruction vision-language vẫn còn rất hạn chế về số lượng, độ đa dạng và tính sáng tạo
Đề xuất MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
Bộ dữ liệu gồm 2,2 triệu lệnh độc nhất lấy từ hình ảnh và video, cùng 2,8 triệu cặp lệnh-phản hồi đa phương thức
Otter là VLM quy mô lớn được huấn luyện bằng bộ dữ liệu MIMIC-IT
Hỗ trợ 8 ngôn ngữ: tiếng Anh, tiếng Trung, tiếng Hàn, tiếng Nhật, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ả Rập

Otter: mô hình đa phương thức có thể tinh chỉnh theo lệnh trong ngữ cảnh

Bài viết liên quan

Chưa có bình luận nào.