PDF2JSON - Công cụ trích xuất PDF sang JSON
(github.com)-
Thư viện mã nguồn mở chuyển đổi nhanh dựa trên XPDF, viết bằng C
-
Cung cấp tệp thực thi cho Windows/macOS/Linux
-
Trích xuất văn bản bên trong PDF kèm phông chữ theo tọa độ x,y
Thư viện mã nguồn mở chuyển đổi nhanh dựa trên XPDF, viết bằng C
Cung cấp tệp thực thi cho Windows/macOS/Linux
Trích xuất văn bản bên trong PDF kèm phông chữ theo tọa độ x,y
1 bình luận
Đã có bản
pdf2jsonviết bằng JavaScript dùngpdf.js, còn công cụ này thì dùng XPDF.https://github.com/mozilla/pdf.js/
https://github.com/modesty/pdf2json
Với các chức năng PDF thông thường thì có thể dùng Apache PDFBox.
https://pdfbox.apache.org/
PDFBox là thư viện Java có thể làm được mọi thứ như tạo PDF, trích xuất, tách & gộp, chuyển đổi sang hình ảnh, v.v.