- Thư viện Python để kiểm tra và chuyển đổi cấu trúc bên trong của tệp PDF
- Tập trung triển khai chương 7 ("Syntax") của tiêu chuẩn PDF
- Quản lý cấu trúc tài liệu ở cấp độ byte, cho phép thực hiện nhiều tác vụ chuyển đổi như truy cập siêu dữ liệu, xoay tài liệu, v.v.
Tính năng chính
- Cung cấp bộ công cụ API cho các thao tác đọc/ghi PDF
- Hỗ trợ CLI (Command Line Interface) để có thể օգտագործել một số tính năng trong terminal hoặc trình duyệt
- Là thư viện gọn nhẹ không có phụ thuộc, được viết bằng Python thuần
- Được thiết kế với trọng tâm là tính đơn giản và tính bất biến
- Hỗ trợ chỉnh sửa không phá hủy theo những gì tiêu chuẩn PDF cho phép, và mặc định thêm cập nhật gia tăng vào cuối tệp gốc
- Cũng có thể hoàn tác toàn bộ lịch sử chỉnh sửa hoặc gộp chúng thành một phiên bản duy nhất
Bản demo trực tiếp
- Cung cấp bản demo trực tiếp cho phép duyệt đầu ra HTML tĩnh của PDFSyntax trong trình duyệt.
- Bản demo là đầu ra cho tệp ví dụ Simple Text String trong đặc tả PDF.
1 bình luận
Ý kiến trên Hacker News
Tóm tắt các bình luận trên Hacker News
Có người từng đảm nhận công việc trích xuất dữ liệu từ PDF trong quá khứ. Khi đó chưa có công nghệ AI, nhưng hiện nay có khả năng tận dụng LLMs để trích xuất dữ liệu.
Có ý kiến cho rằng nếu ở công ty cũ từng có công cụ trích xuất dữ liệu PDF thì họ đã dùng rất nhiều. Công cụ lý tưởng nên hoạt động theo kiểu thả tệp vào và xử lý toàn bộ trên máy cục bộ.
Có người đã dùng công cụ miễn phí iText RUPS để gỡ lỗi PDF và kỳ vọng công cụ mới này sẽ có tính năng mạnh mẽ hơn.
Có ý kiến thắc mắc vì sao PDF chưa bị thay thế bởi XPS, DjVu, XHTML(EPUB), v.v. Họ cho rằng cần một định dạng tài liệu đơn giản, đồng thời phải hỗ trợ hyperlink trong trang, thay đổi cỡ chữ, v.v.
Có ý kiến cho rằng công cụ này hữu ích cho forensic và việc tìm watermark.
Có người nói sẽ tốt hơn nếu hiển thị mọi byte của PDF. Họ chỉ ra rằng không thấy
endobjvàxref.Có ý kiến nói rằng trước đây đã có một dự án tương tự trên GitHub và họ nhớ đến ví dụ về TCP/IP.
Có ý kiến cho rằng sẽ rất hay nếu dùng nó như một thư viện trình duyệt. Tính năng kéo thả tệp để xem cấu trúc bên trong gây ấn tượng.
Có người thắc mắc liệu công cụ UI này có phải là một thư viện hay không. Họ đánh giá cao giao diện đơn giản tận dụng CSS tốt.
Có ý kiến nói rằng họ đang tìm một công cụ giải thích nội dung của các định dạng media trực quan ở cấp độ byte. Họ hỏi có ai biết công cụ nào có thể xử lý các định dạng như JPEG, PNG, AVI, MP4 hay không.