voyage-multimodal-3: mô hình embedding all-in-one cho văn bản, hình ảnh và ảnh chụp màn hình
(blog.voyageai.com)-
voyage-multimodal-3 là một mô hình tiên tiến có thể vector hóa các đặc trưng thị giác và văn bản trong các tài liệu pha trộn giữa text và image
- Mô hình này nắm bắt các đặc trưng thị giác quan trọng từ ảnh chụp màn hình của PDF, slide, bảng, hình minh họa, v.v., từ đó loại bỏ nhu cầu parsing tài liệu phức tạp
- Trên 3 tác vụ truy xuất đa phương thức sử dụng 20 bộ dữ liệu, mô hình cho thấy độ chính xác truy xuất trung bình tăng 19.63%
-
So sánh với các mô hình hiện có
- voyage-multimodal-3 cho hiệu năng tìm kiếm bảng/hình minh họa tốt hơn lần lượt 41.44% và 43.37% so với OpenAI CLIP large và Cohere multimodal v3
- Trong truy xuất ảnh chụp màn hình tài liệu, mô hình vượt trội hơn lần lượt 26.54% và 25.84%
- Trong truy xuất text-photo, mô hình vượt trội hơn lần lượt 6.55% và 5.86%
-
Hỗ trợ pha trộn văn bản và hình ảnh
- Các mô hình embedding đa phương thức trước đây xử lý văn bản và hình ảnh bằng các mạng riêng biệt, nhưng voyage-multimodal-3 vector hóa trực tiếp cả hai modality thông qua cùng một transformer encoder
- Điều này giúp bảo toàn mối quan hệ ngữ cảnh giữa thông tin thị giác và văn bản, nhờ đó có thể vector hóa văn bản và hình ảnh trộn lẫn, ảnh chụp màn hình tài liệu, PDF có bố cục phức tạp, v.v.
-
Tìm kiếm mixed-mode qua ảnh chụp màn hình
- Các mô hình giống CLIP bị suy giảm hiệu năng trong truy xuất mixed-mode do khoảng cách giữa các modality
- voyage-multimodal-3 cho hiệu năng tốt nhất ở mọi tỷ lệ ảnh chụp màn hình và thực sự nắm bắt được nội dung ngữ nghĩa của ảnh chụp màn hình
-
Chi tiết đánh giá
- voyage-multimodal-3 được đánh giá trên 20 bộ dữ liệu đa phương thức và 34 bộ dữ liệu truy xuất văn bản
- Với mỗi tác vụ, mô hình được đánh giá dựa trên mô hình đạt hiệu năng cao nhất trước đó
-
Kết quả
- Trong truy xuất đa phương thức, voyage-multimodal-3 cho hiệu năng tốt hơn OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M và ColQwen2 v0.1
- Trong truy xuất văn bản tiêu chuẩn, mô hình vượt trội hơn OpenAI v3 large và Cohere multimodal/English1 v3 lần lượt 5.13% và 13.70%
-
Hướng dẫn sử dụng
- voyage-multimodal-3 hiện đã có thể sử dụng và 200 triệu token đầu tiên được cung cấp miễn phí
- Có thể bắt đầu với sample notebook hoặc tham khảo tài liệu để biết thêm thông tin
1 bình luận
Ý kiến trên Hacker News