RAG cho bài báo PDF: Chỉ văn bản thôi đã đủ chưa? - Thử nghiệm truy xuất embedding với Gemini embedding 002
(brunch.co.kr/@230kimi)Tổng hợp kết quả thí nghiệm so sánh embedding văn bản và embedding hình ảnh của PDF bài báo học thuật bằng Gemini embedding-2-preview (embedding đa phương thức gốc).
∙ Độ tương đồng cosine trung bình giữa văn bản↔hình ảnh của cùng một trang là 0,642. Khoảng 36% thông tin thị giác như ảnh SEM, đường cong trên biểu đồ, bố cục không gian... không được phản ánh trong embedding văn bản
∙ Khi tìm kiếm bằng 18 truy vấn văn bản, chỉ mục hình ảnh (MRR 0,719) vượt trội hơn chỉ mục văn bản (0,631). Do đặc tính bài báo là các thuật ngữ cốt lõi lặp lại trên nhiều trang, hình ảnh lại có khả năng phân biệt giữa các trang cao hơn
∙ Embedding Multi kết hợp văn bản+hình ảnh (MRR 0,650) lại thấp hơn so với chỉ dùng hình ảnh. Có hiệu ứng làm loãng đặc trưng của hai phương thức
∙ Tìm kiếm cross-modal trong cùng tài liệu (văn bản→hình ảnh) thất bại với Hit@5 là 0%, vì độ tương đồng văn bản giữa các trang cao hơn độ tương đồng văn bản↔hình ảnh của cùng một trang
Với những tài liệu có nhiều Figure, lập chỉ mục hình ảnh có lợi hơn, và cần xem xét lại mặc định RAG kiểu “cứ trích xuất văn bản rồi vector hóa”.
1 bình luận
So với ColPali thì thế nào?