voyage-multimodal-3: mô hình embedding all-in-one cho văn bản, hình ảnh và ảnh chụp màn hình

(blog.voyageai.com)

4 điểm bởi GN⁺ 2024-11-18 | 1 bình luận | Chia sẻ qua WhatsApp

voyage-multimodal-3 do Voyage AI công bố là mô hình dành cho RAG và tìm kiếm ngữ nghĩa, hướng tới việc tìm kiếm kho tri thức có trộn lẫn văn bản và hình ảnh bằng một mô hình embedding duy nhất
Điểm khác biệt cốt lõi là có thể vector hóa mà không cần phân tích tài liệu đối với các tư liệu mà thông tin bố cục rất quan trọng như PDF, slide, bảng biểu, hình vẽ và ảnh chụp màn hình tài liệu
Để giảm các hạn chế của tìm kiếm đa phương thức hỗn hợp ở các mô hình họ CLIP, mô hình xử lý thông tin văn bản và thị giác trong cùng một bộ mã hóa Transformer, nhờ đó giữ được quan hệ ngữ cảnh của đầu vào có trộn nhiều phương thức
Trên 20 bộ dữ liệu tìm kiếm đa phương thức, mô hình cho độ chính xác tìm kiếm trung bình cao hơn 19.63% so với mô hình embedding đa phương thức tốt thứ hai, đồng thời cũng vượt OpenAI v3 large trên 34 bộ dữ liệu tìm kiếm văn bản
Khi tỷ lệ ảnh chụp màn hình tăng lên, các mô hình dựa trên CLIP bị suy giảm chất lượng, nhưng voyage-multimodal-3 chỉ giảm rất ít trên toàn bộ dải tỷ lệ, nên phù hợp thực tế cho các pipeline tìm kiếm dựa trên ảnh chụp màn hình

Các trường hợp sử dụng mà `voyage-multimodal-3` nhắm tới

voyage-multimodal-3 là mô hình embedding đa phương thức đầu tiên của Voyage AI, nhắm tới RAG và tìm kiếm ngữ nghĩa cho các kho tri thức có nhiều tài liệu thị giác đi kèm văn bản
Đối tượng đầu vào là văn bản và các hình ảnh giàu nội dung, với các ví dụ tiêu biểu gồm
- ảnh chụp màn hình văn bản
- hình vẽ và bảng biểu
- ảnh chụp màn hình PDF
- bộ slide
- các hình ảnh tài liệu khác
Vector được tạo ra không chỉ phản ánh ý nghĩa văn bản mà còn cả các đặc điểm thị giác như cỡ chữ, vị trí văn bản và khoảng trắng
Với các tài liệu có bố cục phức tạp hoặc trộn lẫn hình minh họa, ảnh chụp, việc phân tích bằng heuristic có thể gặp vấn đề về độ chính xác, nên mô hình chọn cách biến trực tiếp màn hình gốc thành vector phục vụ tìm kiếm
Có thể xem ví dụ tính năng trong sample notebook

Cách embedding khác với họ CLIP

Các mô hình embedding đa phương thức hiện có như Amazon Titan Multimodal G1, Google Vertex AI multimodal và Cohere multimodal v3 sử dụng kiến trúc dựa trên OpenAI CLIP
Kiến trúc họ CLIP xử lý các phương thức khác nhau bằng các mạng độc lập
- hình ảnh được vector hóa qua vision tower
- văn bản được vector hóa qua text tower
- trong cấu trúc này, rất khó xử lý cùng lúc đầu vào trộn lẫn văn bản và hình ảnh
voyage-multimodal-3 vector hóa trực tiếp cả hai phương thức trong cùng một bộ mã hóa Transformer
- đặc trưng văn bản và thị giác không còn là các thành phần tách biệt mà được xử lý như một phần của biểu diễn hợp nhất
- đây là cách áp dụng kiến trúc của các mô hình vision-language hiện đại vào vector hóa thay vì sinh nội dung
Nhờ đó, với văn bản và hình ảnh trộn lẫn, ảnh chụp màn hình tài liệu, PDF phức tạp hay hình ảnh có chú thích, mô hình có thể đưa cả thông tin thị giác lẫn thông tin văn bản cùng quan hệ ngữ cảnh giữa chúng vào vector

Khác biệt thể hiện trong tìm kiếm có trộn ảnh chụp màn hình

Các mô hình tương tự CLIP có thể bị giảm hiệu năng trong tìm kiếm đa phương thức hỗn hợp do khoảng cách phương thức (modality gap)
Trong ví dụ, vector gần nhất với mẩu văn bản “I address you, members of the Seventy-Seventh Congress…” không phải là ảnh chụp màn hình tương ứng mà là một đoạn văn bản khác
Hiện tượng này dẫn tới thiên lệch tìm kiếm khi vector văn bản lại gần các mục cùng phương thức nhưng không liên quan hơn là các hình ảnh liên quan
Voyage AI đã thiết lập một thí nghiệm định lượng trên tài liệu PyTorch
- tạo các bộ tài liệu có cùng nội dung dưới dạng chuỗi văn bản thường và ảnh chụp màn hình tương ứng
- trộn một phần tài liệu dạng văn bản với ảnh chụp màn hình của phần còn lại để tạo bộ dữ liệu đa phương thức hỗn hợp
- đặt tỷ lệ ảnh chụp màn hình khác nhau từ 0% đến 100%
- mỗi mô hình tìm 10 kết quả đầu bằng độ tương đồng cosine và được đánh giá bằng NDCG@10
Các mô hình dựa trên CLIP bị giảm chất lượng tìm kiếm khi tỷ lệ ảnh chụp màn hình tăng tới 90%, và ngay cả khi toàn bộ văn bản được thay bằng hình ảnh thì hiệu năng vẫn thấp
voyage-multimodal-3 cho hiệu năng cao nhất ở mọi tỷ lệ và mức suy giảm tổng thể cũng gần như không đáng kể
Kết quả này cho thấy khả năng đưa thông tin ngữ nghĩa trong ảnh chụp màn hình vào vector, cũng như độ vững của cách tiếp cận xử lý mọi phương thức đầu vào bằng cùng một backbone

Bộ dữ liệu đánh giá và đối tượng so sánh

Đánh giá đa phương thức được thực hiện trên 3 tác vụ, tổng cộng 20 bộ dữ liệu
- tìm kiếm bảng biểu/hình vẽ: charxiv, mmtab-test, ChartQA, Chartve, FintabnetQA, PlotQA
- tìm kiếm ảnh chụp màn hình tài liệu: ViDoRe benchmark gồm Energy, Healthcare Industry, Artificial Intelligence, Government Report, InfoVQA, DocVQA, ArxivQA, TabFQuad, TAT-DQA, Shift Project
- tìm kiếm văn bản-ảnh: meme-cap, mm-imdb, winoground, docci
Đánh giá tìm kiếm văn bản tiêu chuẩn được tiến hành trên 34 bộ dữ liệu thuộc 6 miền gồm pháp lý, tài chính, hội thoại, mã nguồn, web và kỹ thuật
Ở mọi bộ dữ liệu, truy vấn đều là văn bản, còn tài liệu có thể là hình vẽ, ảnh chụp, văn bản, ảnh chụp màn hình tài liệu hoặc tổ hợp của chúng
Các mô hình được dùng để so sánh trong tác vụ đa phương thức gồm
- OpenAI CLIP large (clip-vit-large-patch14-336)
- Amazon Titan Multimodal Embeddings G1 (amazon.titan-embed-image-v1)
- Cohere multimodal v3 (embed-multimodal-v3.0)
- SigLIP So400M (siglip-so400m-patch14-384)
- ColQwen2 v0.1 (colqwen-v0.1)
Trong tìm kiếm văn bản tiêu chuẩn, mô hình được so sánh với OpenAI v3 large (text-embeddings-3-large), Cohere multimodal/English 1 v3 và voyage-3
Do Cohere multimodal v3 dùng Cohere English v3 (embed-english-v3.0) làm text tower cho văn bản thuần, biểu đồ chỉ dùng nhãn “Cohere multimodal v3” để giảm nhầm lẫn

Kết quả độ chính xác tìm kiếm

voyage-multimodal-3 ghi nhận độ chính xác tìm kiếm trung bình cao hơn 19.63% so với mô hình embedding đa phương thức tốt thứ hai trên toàn bộ 20 bộ dữ liệu tìm kiếm đa phương thức
Ở tìm kiếm bảng biểu/hình vẽ, mô hình vượt OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M và ColQwen2 v0.1 lần lượt 41.44%, 45.00%, 43.37%, 20.66% và 6.14%
Ở tìm kiếm ảnh chụp màn hình tài liệu, mô hình cho hiệu năng cao hơn các mô hình đối chiếu tương ứng 26.54%, 37.68%, 25.84%, 35.62% và 0.98%
Ở tìm kiếm văn bản-ảnh, mô hình lần lượt vượt các mô hình trên 6.55%, 5.16%, 5.86%, 3.42% và 10.34%
Trong tìm kiếm văn bản tiêu chuẩn, mô hình đạt hiệu năng cao hơn OpenAI v3 large 5.13% và cao hơn Cohere multimodal/English 1 v3 13.70%
Độ chính xác tìm kiếm tài liệu văn bản thuần cao hơn voyage-3 0.05%, tức hai mô hình gần như tương đương
Toàn bộ kết quả đánh giá được công bố trong bảng tính

Bắt đầu sử dụng và tài liệu đi kèm

Có thể dùng voyage-multimodal-3 ngay từ ngày công bố
200 triệu token đầu tiên được miễn phí
Tài liệu bắt đầu gồm sample notebook và docs
Người dùng quan tâm tới mô hình embedding fine-tuning có thể liên hệ qua contact@voyageai.com

1 bình luận

GN⁺ 2024-11-18

Ý kiến trên Hacker News

Quan sát cốt lõi rất đơn giản và trực quan: mọi mô hình họ CLIP đều hoạt động kém trong tìm kiếm đa phương thức hỗn hợp do khoảng cách giữa các modality (modality gap)
Ví dụ, vector gần nhất với câu “I address you, members of the Seventy-Seventh Congress…” lại là một đoạn văn bản khác chứ không phải ảnh chụp màn hình tương ứng. Vì vậy trong không gian embedding, vector văn bản trở nên gần với văn bản không liên quan hơn là với hình ảnh liên quan, khiến kết quả tìm kiếm bị lệch về cùng modality
- Trích dẫn này quan trọng, nhưng nếu nhìn riêng thì chưa rõ họ có đang tuyên bố đã giải quyết vấn đề đó hay không. Có vẻ họ nói rằng mô hình mới voyage-multimodal-3 nhận diện được các khái niệm liên kết xuyên modality
  Nếu có một không gian tiềm ẩn có thể gom cụm cùng một ý tưởng dù được biểu diễn bằng hình ảnh hay văn bản thì khá tuyệt. Tuy nhiên, tôi nghĩ benchmark này nhìn embedding đa phương thức theo cách khá hẹp. Việc ảnh văn bản liên quan và embedding văn bản ở gần nhau thì tiện, nhưng khó nói rằng điều đó mở rộng sang mức độ liên quan của các biểu diễn trực quan khác nhau như “rabbit” và ảnh con thỏ. Nếu mục tiêu hẹp là lập chỉ mục ảnh tài liệu, có lẽ các kỹ thuật khác cũng có thể hoạt động khá tốt. Đây có vẻ là cơ hội tốt để xuất hiện một bộ dữ liệu benchmark mới cho biểu diễn khái niệm đa phương thức vượt ra ngoài phương tiện văn bản
- Vấn đề này có thể đang được giải quyết bằng multimodal mixup, nhằm tránh tạo ra khoảng cách lớn trong không gian tiềm ẩn giữa hai modality: https://arxiv.org/abs/2203.03897
Nếu quan tâm đến lĩnh vực này, cũng đáng đưa dự án của chúng tôi vào danh sách cân nhắc; nó dùng ColPali một cách minh bạch ở bên trong
https://github.com/tjmlabs/ColiVara
Benchmark chính ở mảng này là bảng xếp hạng Vidore, và tôi muốn xem VoyageAI đứng ở mức nào so với các triển khai nguồn mở cởi mở hơn
Có vẻ tôi đang bỏ lỡ điều gì đó. Tôi nghĩ nếu một LLM nào đó là “đa phương thức native” thì kiểu gì nó cũng phải bao gồm embedding đa phương thức theo cách nào đó
Ví dụ, bài blog về Gemini của Google giải thích rằng các mô hình đa phương thức trước đây huấn luyện riêng các thành phần cho các modality khác nhau rồi ghép chúng lại, còn Gemini được tiền huấn luyện ngay từ đầu trên nhiều modality và được tinh chỉnh thêm bằng dữ liệu đa phương thức. Vì vậy họ tuyên bố nó hiểu và suy luận tự nhiên với mọi loại đầu vào ngay từ đầu
- Các LLM như Gemini, hay rộng hơn là mô hình ngôn ngữ nhân quả, được huấn luyện bằng dự đoán token tiếp theo, nên vector thu được bằng cách pooling embedding của token đầu ra không hữu ích lắm cho RAG hay tìm kiếm ngữ nghĩa so với thứ nhận được từ một mô hình embedding thực thụ
  Điểm cần phân biệt ở đây là embedding token và vector/embedding do mô hình embedding xuất ra là các khái niệm có liên quan nhưng khác nhau. Nhiều embedding token, mỗi token một embedding, được ngữ cảnh hóa khi đi qua transformer; còn mô hình embedding xuất ra một vector cho mỗi đầu vào dữ liệu, chẳng hạn văn bản dài, ảnh hoặc ảnh chụp màn hình tài liệu
- Embedding của LLM chứa biểu diễn chồng lấp của nhiều khái niệm nên có thể dự đoán token tiếp theo, nhưng hiệu năng không tốt bằng mô hình embedding được tiền huấn luyện bằng học đối chiếu
- Nếu các câu trả lời khác chưa rõ, ở đây cứ nghĩ “embedding” là “một danh sách do một tầng nào đó trong mô hình AI của tôi tạo ra”
  Nói chính xác thì đây là một khái niệm cụ thể hơn một chút, nhưng trong ngữ cảnh này thì đúng. LLM, bao gồm cả LLM đa phương thức, cũng có embedding, nhưng đó không phải là embedding được huấn luyện để tìm tài liệu tương tự, mà là embedding được học thông qua sinh văn bản
Trông khá ấn tượng. Tôi tò mò về góc nhìn phản biện đối với phần đánh giá được đưa ra
Cũng tò mò văn bản không phải tiếng Anh sẽ thế nào. Tôi hiểu đúng không nếu đây là mô hình chỉ được cung cấp qua API như các mô hình thương mại khác?
- Đúng, các mô hình Voyage chỉ dùng qua API
  Tôi đã viết phần liên quan đến đa ngôn ngữ nhưng bị sai nên đã xóa. Nhân tiện, Voyage còn có các mô hình riêng cho law, code, finance. Xem [1]
  Dù sao thì kết quả thật sự rất thú vị
  [1]: https://docs.voyageai.com/docs/embeddings
Thật tiếc là mô hình này là độc quyền thương mại và chỉ dùng qua API
- Việc phải trả lương cho nhân viên là chuyện đáng buồn sao?
Nếu là mô hình chỉ dùng qua API thì tôi xin bỏ qua. Dù vậy vẫn chúc mừng
- Tôi đồng ý với cả hai phần. Tất nhiên ngoài việc muốn thu tiền từ người dùng, chắc chắn cũng có những lý do rõ ràng để chỉ tập trung vào API, nhưng chỉ riêng việc không cung cấp lựa chọn nào khác cũng đủ khiến cá nhân tôi không cân nhắc
Trông khá thú vị. Tôi đã làm AnyModal, một framework để tích hợp nhiều kiểu dữ liệu, chẳng hạn hình ảnh và âm thanh, vào LLM: https://github.com/ritabratamaiti/AnyModal
voyage-multimodal-3 trông khá hứa hẹn cho việc phát triển LLM đa phương thức, nhưng tôi không chắc đó có phải là use case được nhắm tới hay không
Trong Python API truyền thống, engine Voyage token hóa các khối văn bản và xuất ra chuỗi. Mô hình này có vẻ làm việc đó bằng cách vector hóa hình ảnh trong không gian
Những từ như you hay apple trở thành một token, còn thuật ngữ phức tạp hơn như pikachu có thể bị tách thành pik-a-chu
[1]: https://docs.voyageai.com/docs/tokenization
Cách nhìn về embedding đa phương thức khá thú vị. Họ đo sự thay đổi hiệu năng theo tỷ lệ khi đầu vào dần chuyển từ một modality sang modality khác
https://i0.wp.com/blog.voyageai.com/wp-content/uploads/2024/...
Trong Colab, họ đo các giá trị tích vô hướng 0.428 và 0.498 rồi mô tả đó là “giá trị độ tương đồng khá cao”. Tôi nghi ngờ liệu đó có thật sự là giá trị cao không
Liệu có thể thiết kế một hệ thống tự tin gán nhãn dữ liệu với ngưỡng 0.4 không?
- Điểm tương đồng thô cũng quan trọng, nhưng thường điều quan trọng hơn là điểm tương đối khi so với các tài liệu khác
  Trong ví dụ notebook, các giá trị đó là cao nhất về mặt tương đối. Tôi hiểu vì sao điều này có thể không rõ ràng hoặc gây nhầm lẫn, và sẽ sửa
- Bản thân giá trị đầu ra thô nhìn chung không quan trọng. Điều quan trọng là vị trí của nó trong phân phối đầu ra
- 0.4 của cosine similarity không giống 0.4 của ngưỡng sigmoid
  Với dữ liệu thực tế không phải các bản trùng lặp gần như giống hệt nhau, cosine similarity 0.4 là một giá trị khá ổn

voyage-multimodal-3: mô hình embedding all-in-one cho văn bản, hình ảnh và ảnh chụp màn hình

Các trường hợp sử dụng mà voyage-multimodal-3 nhắm tới

Cách embedding khác với họ CLIP

Khác biệt thể hiện trong tìm kiếm có trộn ảnh chụp màn hình

Bộ dữ liệu đánh giá và đối tượng so sánh

Kết quả độ chính xác tìm kiếm

Bắt đầu sử dụng và tài liệu đi kèm

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News

Các trường hợp sử dụng mà `voyage-multimodal-3` nhắm tới