- PDF vẫn là định dạng tài liệu chủ đạo → nhưng bị hạn chế về hiệu quả tìm kiếm với LLM
- Thử nghiệm chuyển đổi PDF → Markdown bằng markitdown mã nguồn mở của Microsoft
- Vẫn có giới hạn như vỡ công thức, lỗi bố cục, nhưng có thể cải thiện độ dễ đọc bằng cách hiệu chỉnh với LLM
- Phù hợp với PDF một cột, thiên về văn bản; tài liệu phức tạp vẫn có nhiều ràng buộc
5 bình luận
Ngay cả trong RAG, các tài liệu PDF này cũng luôn gây ra vấn đề.
Định dạng tệ nhất, PDF
markitdown thì tiện cho việc chuyển đổi giữa các định dạng, nhưng với PDF thì tuyệt đối đừng dùng nhé.
Hiện đã có khá nhiều phương pháp trích xuất tài liệu dùng LLM đa phương thức như Gemini, và trên benchmark kết quả cũng khá tốt. Chỉ là chi phí mới là vấn đề.
Những thứ như docling cũng khá ổn.
docling cũng rất tốt
markitdown sử dụng https://github.com/pdfminer/pdfminer.six để phân tích PDF, rồi trích xuất nguyên văn phần văn bản hoặc hình ảnh nhúng từ tệp. Nghe đến OCR mà đã thấy choáng váng rồi...