4 điểm bởi GN⁺ 2024-11-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • voyage-multimodal-3 là một mô hình tiên tiến có thể vector hóa các đặc trưng thị giác và văn bản trong các tài liệu pha trộn giữa text và image

    • Mô hình này nắm bắt các đặc trưng thị giác quan trọng từ ảnh chụp màn hình của PDF, slide, bảng, hình minh họa, v.v., từ đó loại bỏ nhu cầu parsing tài liệu phức tạp
    • Trên 3 tác vụ truy xuất đa phương thức sử dụng 20 bộ dữ liệu, mô hình cho thấy độ chính xác truy xuất trung bình tăng 19.63%
  • So sánh với các mô hình hiện có

    • voyage-multimodal-3 cho hiệu năng tìm kiếm bảng/hình minh họa tốt hơn lần lượt 41.44% và 43.37% so với OpenAI CLIP large và Cohere multimodal v3
    • Trong truy xuất ảnh chụp màn hình tài liệu, mô hình vượt trội hơn lần lượt 26.54% và 25.84%
    • Trong truy xuất text-photo, mô hình vượt trội hơn lần lượt 6.55% và 5.86%
  • Hỗ trợ pha trộn văn bản và hình ảnh

    • Các mô hình embedding đa phương thức trước đây xử lý văn bản và hình ảnh bằng các mạng riêng biệt, nhưng voyage-multimodal-3 vector hóa trực tiếp cả hai modality thông qua cùng một transformer encoder
    • Điều này giúp bảo toàn mối quan hệ ngữ cảnh giữa thông tin thị giác và văn bản, nhờ đó có thể vector hóa văn bản và hình ảnh trộn lẫn, ảnh chụp màn hình tài liệu, PDF có bố cục phức tạp, v.v.
  • Tìm kiếm mixed-mode qua ảnh chụp màn hình

    • Các mô hình giống CLIP bị suy giảm hiệu năng trong truy xuất mixed-mode do khoảng cách giữa các modality
    • voyage-multimodal-3 cho hiệu năng tốt nhất ở mọi tỷ lệ ảnh chụp màn hình và thực sự nắm bắt được nội dung ngữ nghĩa của ảnh chụp màn hình
  • Chi tiết đánh giá

    • voyage-multimodal-3 được đánh giá trên 20 bộ dữ liệu đa phương thức và 34 bộ dữ liệu truy xuất văn bản
    • Với mỗi tác vụ, mô hình được đánh giá dựa trên mô hình đạt hiệu năng cao nhất trước đó
  • Kết quả

    • Trong truy xuất đa phương thức, voyage-multimodal-3 cho hiệu năng tốt hơn OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M và ColQwen2 v0.1
    • Trong truy xuất văn bản tiêu chuẩn, mô hình vượt trội hơn OpenAI v3 large và Cohere multimodal/English1 v3 lần lượt 5.13% và 13.70%
  • Hướng dẫn sử dụng

    • voyage-multimodal-3 hiện đã có thể sử dụng và 200 triệu token đầu tiên được cung cấp miễn phí
    • Có thể bắt đầu với sample notebook hoặc tham khảo tài liệu để biết thêm thông tin

1 bình luận

 
GN⁺ 2024-11-18
Ý kiến trên Hacker News
  • Mô hình CLIP có hiện tượng cho hiệu năng kém trong truy xuất đa phương thức hỗn hợp. Nguyên nhân là do khoảng cách giữa các phương thức, khiến vector văn bản lại gần với những văn bản không liên quan hơn
    • Gemini của Google được thiết kế đa phương thức ngay từ đầu nên cải thiện được vấn đề này. Nhờ được tiền huấn luyện trên nhiều phương thức khác nhau, nó có thể hiểu và suy luận hiệu quả với mọi loại đầu vào
  • Dự án ColiVara triển khai mô hình đa phương thức bằng ColPali. Muốn so sánh hiệu năng của VoyageAI trên bảng xếp hạng Vidore
  • Đáng tiếc là các mô hình thương mại chỉ được cung cấp dưới dạng API
  • Cần có góc nhìn phê phán với các mô hình chỉ có API. Đặc biệt, cần đánh giá đối với văn bản không phải tiếng Anh
  • Việc thực hiện phân tích định tính bằng bộ dữ liệu thực tế là rất quan trọng. Benchmark định lượng hữu ích nhưng hiếm khi được dùng
  • Đây là một cách thú vị để nhìn vào embedding đa phương thức. Hiệu năng được đánh giá bằng tỷ lệ đầu vào chuyển từ phương thức này sang phương thức khác
  • Engine của Voyage trong API Python truyền thống token hóa các khối văn bản và xuất ra chuỗi ký tự. Mô hình này thực hiện điều đó thông qua việc vector hóa hình ảnh
    • Những từ như 'you' và 'apple' được xử lý như một token đơn, còn các thuật ngữ phức tạp như 'pikachu' có thể bị tách thành 'pik-a-chu'
  • Trong Colab, các giá trị tích vô hướng 0.428 và 0.498 được mô tả là "giá trị tương đồng khá cao". Có nghi vấn liệu có thể thiết kế một hệ thống đủ tự tin để gán nhãn dữ liệu với ngưỡng 0.4 hay không