18 điểm bởi computerphilosopher 2025-09-20 | 5 bình luận | Chia sẻ qua WhatsApp
  • PDF vẫn là định dạng tài liệu chủ đạo → nhưng bị hạn chế về hiệu quả tìm kiếm với LLM
  • Thử nghiệm chuyển đổi PDF → Markdown bằng markitdown mã nguồn mở của Microsoft
  • Vẫn có giới hạn như vỡ công thức, lỗi bố cục, nhưng có thể cải thiện độ dễ đọc bằng cách hiệu chỉnh với LLM
  • Phù hợp với PDF một cột, thiên về văn bản; tài liệu phức tạp vẫn có nhiều ràng buộc

5 bình luận

 
ahwjdekf 2025-09-23

Ngay cả trong RAG, các tài liệu PDF này cũng luôn gây ra vấn đề.

 
ahwjdekf 2025-09-22

Định dạng tệ nhất, PDF

 
kbumsik 2025-09-22

markitdown thì tiện cho việc chuyển đổi giữa các định dạng, nhưng với PDF thì tuyệt đối đừng dùng nhé.

Hiện đã có khá nhiều phương pháp trích xuất tài liệu dùng LLM đa phương thức như Gemini, và trên benchmark kết quả cũng khá tốt. Chỉ là chi phí mới là vấn đề.

Những thứ như docling cũng khá ổn.

 
kaydash 2025-09-22

docling cũng rất tốt

 
lamanus 2025-09-21

markitdown sử dụng https://github.com/pdfminer/pdfminer.six để phân tích PDF, rồi trích xuất nguyên văn phần văn bản hoặc hình ảnh nhúng từ tệp. Nghe đến OCR mà đã thấy choáng váng rồi...