Marker - Mã nguồn mở chuyển PDF sang Markdown
(github.com/VikParuchuri)- Chuyển đổi PDF, EPUB, MOBI sang Markdown
- Nhanh hơn hơn 10 lần và chuyển đổi chính xác hơn so với Nougat do Facebook Research tạo ra
- Tối ưu cho định dạng sách và bài báo nghiên cứu
- Loại bỏ header, footer và các artifact khác
- Hầu hết các công thức được chuyển sang LaTeX
- Định dạng code block và bảng
- Hỗ trợ đa ngôn ngữ
6 bình luận
Trời…. Các nhà xuất bản ở thị trường tiếng Anh sắp gặp sóng gió rồi. Cũng có không ít nhà xuất bản thiên về công nghệ tặng luôn file PDF khi mua sách, nên khá tò mò không biết họ sẽ xoay xở thế nào.
PDF có cần phải được OCR sẵn không nhỉ?? Phải thử ngay mới được.
Chỉ nhìn README thì có vẻ nó cũng thực hiện cả tác vụ OCR... có thể là tôi đã đọc nhầm...
Vâng... với người không giỏi tiếng Anh như tôi thì cách diễn đạt này hơi khó hiểu một chút
Extract text, OCR if necessary??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
Vì ưu tiên tốc độ nên có vẻ khả năng cao là không phù hợp với các PDF cần OCR số lượng lớn.
Có hỗ trợ OCR, nhưng nên hiểu là không thể bảo đảm chất lượng.
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
Ngoài ra, CJK không được hỗ trợ.
Cảm ơn bạn!