pdfsandwich - Công cụ tạo tệp PDF "sandwich" với hình ảnh và OCR
(tobias-elze.de)<p>- PDF “sandwich”: tệp PDF chỉ có hình ảnh được OCR và chèn phần văn bản một cách ẩn phía sau hình ảnh của từng trang<br />
→ có thể tìm kiếm văn bản và chọn để sao chép<br />
- Công cụ dòng lệnh dùng để OCR sách hoặc tạp chí đã quét<br />
→ cũng hỗ trợ văn bản nhiều cột <br />
- tesseract + unpaper + convert + ghostscript <br />
→ hỗ trợ tất cả các ngôn ngữ mà tesseract hỗ trợ (bao gồm cả tiếng Hàn)<br />
- Linux/Mac. Hỗ trợ xử lý song song trên hệ thống đa bộ xử lý </p>
Chưa có bình luận nào.