25 điểm bởi xguru 2025-03-03 | 2 bình luận | Chia sẻ qua WhatsApp
  • Công cụ mã nguồn mở chuyển tài liệu PDF và JPG/PNG thành văn bản thuần, đồng thời giữ nguyên thứ tự đọc tự nhiên
  • Được thiết kế để xử lý nhanh khối lượng lớn tài liệu, hỗ trợ bảng biểu, công thức, chữ viết tay, v.v.
  • Được huấn luyện dựa trên các bài báo học thuật, tài liệu kỹ thuật và các tài liệu tham khảo khác
  • Sử dụng phương pháp tận dụng kỹ thuật prompting độc đáo để nâng cao độ chính xác và giảm hiện tượng ảo giác (hallucination)
  • Mô hình hiện tại được tối ưu cho tài liệu tiếng Anh, các ngôn ngữ khác có thể không được hỗ trợ tốt
  • Có thể trực tiếp thử tài liệu trên trang demo
  • Chi phí chuyển đổi 1 triệu trang vào khoảng $190 USD, cho phép vận hành tiết kiệm
  • Cần GPU NVIDIA đời mới (đã thử nghiệm với RTX 4090, L40S, A100, H100)
  • Thử trên demo trực tuyến (PDF, JPG, PNG)

Các đoạn mã có trong bộ công cụ mã nguồn mở

  • Chiến lược prompting dựa trên ChatGPT 4o (buildsilver.py) : bao gồm các kỹ thuật tối đa hóa hiệu năng phân tích văn bản tự nhiên
  • Công cụ đánh giá so sánh pipeline (runeval.py)
  • Tính năng lọc ngôn ngữ và loại bỏ spam SEO (filter.py)
  • Mã fine-tuning cho Qwen2-VL và Molmo-O (train.py)
  • Pipeline xử lý số lượng lớn PDF (pipeline.py) : có thể xử lý hàng triệu tệp PDF bằng Sglang
  • Trình xem tài liệu Dolma (dolmaviewer.py) : có thể kiểm tra trực quan các tài liệu định dạng Dolma được chuyển đổi từ PDF

2 bình luận

 
kleinstein 2025-03-06

Hiện tại có vẻ như nó không chạy trên Windows..

 
kaydash 2025-03-03

Có lẽ hiện tại những thư viện hoạt động mà không cần GPU vẫn còn hữu ích.