37 điểm bởi xguru 2023-12-04 | 6 bình luận | Chia sẻ qua WhatsApp
  • Chuyển đổi PDF, EPUB, MOBI sang Markdown
  • Nhanh hơn hơn 10 lần và chuyển đổi chính xác hơn so với Nougat do Facebook Research tạo ra
  • Tối ưu cho định dạng sách và bài báo nghiên cứu
  • Loại bỏ header, footer và các artifact khác
  • Hầu hết các công thức được chuyển sang LaTeX
  • Định dạng code block và bảng
  • Hỗ trợ đa ngôn ngữ

6 bình luận

 
bus710 2023-12-05

Trời…. Các nhà xuất bản ở thị trường tiếng Anh sắp gặp sóng gió rồi. Cũng có không ít nhà xuất bản thiên về công nghệ tặng luôn file PDF khi mua sách, nên khá tò mò không biết họ sẽ xoay xở thế nào.

 
hero512 2023-12-04

PDF có cần phải được OCR sẵn không nhỉ?? Phải thử ngay mới được.

 
limc132 2023-12-04

Chỉ nhìn README thì có vẻ nó cũng thực hiện cả tác vụ OCR... có thể là tôi đã đọc nhầm...

 
hero512 2023-12-04

Vâng... với người không giỏi tiếng Anh như tôi thì cách diễn đạt này hơi khó hiểu một chút
Extract text, OCR if necessary??

 
say8425 2023-12-04

> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Vì ưu tiên tốc độ nên có vẻ khả năng cao là không phù hợp với các PDF cần OCR số lượng lớn.
Có hỗ trợ OCR, nhưng nên hiểu là không thể bảo đảm chất lượng.

> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

Ngoài ra, CJK không được hỗ trợ.

 
hero512 2023-12-04

Cảm ơn bạn!