- Công cụ mã nguồn mở chuyển tài liệu PDF và JPG/PNG thành văn bản thuần, đồng thời giữ nguyên thứ tự đọc tự nhiên
- Được thiết kế để xử lý nhanh khối lượng lớn tài liệu, hỗ trợ bảng biểu, công thức, chữ viết tay, v.v.
- Được huấn luyện dựa trên các bài báo học thuật, tài liệu kỹ thuật và các tài liệu tham khảo khác
- Sử dụng phương pháp tận dụng kỹ thuật prompting độc đáo để nâng cao độ chính xác và giảm hiện tượng ảo giác (hallucination)
- Mô hình hiện tại được tối ưu cho tài liệu tiếng Anh, các ngôn ngữ khác có thể không được hỗ trợ tốt
- Có thể trực tiếp thử tài liệu trên trang demo
- Chi phí chuyển đổi 1 triệu trang vào khoảng $190 USD, cho phép vận hành tiết kiệm
- Cần GPU NVIDIA đời mới (đã thử nghiệm với RTX 4090, L40S, A100, H100)
- Thử trên demo trực tuyến (PDF, JPG, PNG)
Các đoạn mã có trong bộ công cụ mã nguồn mở
- Chiến lược prompting dựa trên ChatGPT 4o (
buildsilver.py) : bao gồm các kỹ thuật tối đa hóa hiệu năng phân tích văn bản tự nhiên
- Công cụ đánh giá so sánh pipeline (
runeval.py)
- Tính năng lọc ngôn ngữ và loại bỏ spam SEO (
filter.py)
- Mã fine-tuning cho Qwen2-VL và Molmo-O (
train.py)
- Pipeline xử lý số lượng lớn PDF (
pipeline.py) : có thể xử lý hàng triệu tệp PDF bằng Sglang
- Trình xem tài liệu Dolma (
dolmaviewer.py) : có thể kiểm tra trực quan các tài liệu định dạng Dolma được chuyển đổi từ PDF
2 bình luận
Hiện tại có vẻ như nó không chạy trên Windows..
Có lẽ hiện tại những thư viện hoạt động mà không cần GPU vẫn còn hữu ích.