- Công cụ mã nguồn mở giúp tìm kiếm và quản lý hợp nhất dữ liệu đa phương thức như hình ảnh, PDF, video
- Được tối ưu để xử lý tài liệu kỹ thuật và tài liệu trực quan tốt hơn so với phương pháp RAG truyền thống
- Sử dụng embedding ColPali để xử lý toàn bộ trang như một hình ảnh, cung cấp tìm kiếm ngữ nghĩa có thể hiểu cả bố cục, kiểu chữ và ngữ cảnh trực quan
- Có thể tạo đồ thị tri thức chuyên biệt theo miền với khả năng liên kết thực thể giữa nhiều tài liệu, đồng thời có thể dùng system prompt tùy chỉnh hoặc được huấn luyện sẵn
- Tìm kiếm nhiều loại tài liệu bằng một API duy nhất như PDF, hình ảnh, video, đồng thời hỗ trợ MCP
- Chức năng trích xuất metadata nhanh và có thể mở rộng, đồng thời hỗ trợ bounding box, phân loại, v.v.
- Có thể tích hợp workflow với Google Suite, Slack, Confluence, v.v.
- Cũng bao gồm tính năng Cache-Augmented-Generation dựa trên KV cache giúp cải thiện tốc độ sinh từ tài liệu
- Các tính năng cơ bản được cung cấp mã nguồn mở theo giấy phép MIT, có thể bắt đầu miễn phí; một số tính năng nâng cao được cung cấp trả phí trong namespace
ee
Giới thiệu các khái niệm và tính năng chính
-
Tìm kiếm đa phương thức (ColPali)
- Xử lý từng trang PDF như một hình ảnh, tạo biểu diễn multi-vector theo đơn vị trang thay vì theo từng text token
- Có thể nắm bắt ý nghĩa và tìm kiếm hình ảnh, PDF, video cũng như cấu trúc trực quan (bảng, sơ đồ, định dạng, v.v.)
- Hỗ trợ truy vấn đa phương thức hợp nhất thông qua một endpoint duy nhất
-
- Có thể tạo đồ thị tri thức chuyên biệt theo miền chỉ với một dòng code
- Có thể dùng prompt cấu hình sẵn hoặc tự tùy chỉnh
-
Trích xuất metadata nhanh và có thể mở rộng (Rules Processing)
- Tự động trích xuất bounding box, nhãn, thông tin phân loại trong tài liệu
- Xử lý nhanh và ổn định cả với tài liệu dung lượng lớn
-
Nhiều tính năng tích hợp (Integrations)
- Hỗ trợ tích hợp trực tiếp với Google Workspace, Slack, Confluence v.v.
-
- Tạo KV cache cho từng tài liệu để tăng tốc độ sinh
- Hữu ích trong môi trường có nhiều truy vấn lặp lại
2 bình luận
Tôi đã thử dùng cái này cách đây vài tháng, nhưng nó cần tài nguyên GPU nhiều hơn tôi tưởng và tốc độ cũng giảm khá nhiều, nên có vẻ khó để các công ty quy mô nhỏ áp dụng. Ngay cả khi dùng 2 GPU A10 để tìm kiếm cũng mất khoảng 30 giây đến 1 phút, ghê thật,,