Paper to HTML - Chuyển đổi bài báo thành HTML dễ đọc

xguru · 2021-09-17T09:18:57+09:00

Sử dụng machine learning để đọc nội dung từ PDF, LaTeX, PubMed Central XML và chuyển đổi sang HTML Mục tiêu là tăng khả năng tiếp cận Nguyên mẫu thử nghiệm của Semantic Scholar, công cụ tìm kiếm tài liệu nghiên cứu dựa trên AI Hiện tại chỉ lưu đệm hình ảnh/nội dung đã trích xuất, và được dùng để phục vụ nhanh hơn cho những người tải lên cùng một tài liệu. Không lưu trữ tệp đã tải lên Hạn chế → Bảng (Table) được trích xuất dưới dạng hình ảnh → Nội dung toán học (Math) có độ chính xác thấp hoặc hầu như không được trích xuất → Xử lý LaTeX/PubMed có thể thiếu một số tính năng so với PDF Trong tương lai có kế hoạch bổ sung tính năng trợ năng vào Semantic Scholar

(papertohtml.org)

9 điểm bởi xguru 2021-09-17 | 3 bình luận | Chia sẻ qua WhatsApp

Sử dụng machine learning để đọc nội dung từ PDF, LaTeX, PubMed Central XML và chuyển đổi sang HTML
Mục tiêu là tăng khả năng tiếp cận
Nguyên mẫu thử nghiệm của Semantic Scholar, công cụ tìm kiếm tài liệu nghiên cứu dựa trên AI
Hiện tại chỉ lưu đệm hình ảnh/nội dung đã trích xuất, và được dùng để phục vụ nhanh hơn cho những người tải lên cùng một tài liệu. Không lưu trữ tệp đã tải lên
Hạn chế

→ Bảng (Table) được trích xuất dưới dạng hình ảnh

→ Nội dung toán học (Math) có độ chính xác thấp hoặc hầu như không được trích xuất

→ Xử lý LaTeX/PubMed có thể thiếu một số tính năng so với PDF

Trong tương lai có kế hoạch bổ sung tính năng trợ năng vào Semantic Scholar

3 bình luận

v08zbv8fvlkjasdflkj 2021-09-23

Khi chuyển đổi PDF sang định dạng khác (tôi thích epub), vấn đề nằm ở các bảng và công thức được liệt kê ở trên; nếu phần công thức không xử lý tốt thì tôi không rõ điểm mạnh là gì.

Xem demo thì có vẻ khá dùng được.

indigo6 2021-09-18

Có vẻ sẽ tiện hơn thật, nhưng cũng có lẽ sẽ có người không muốn bài báo của mình bị chuyển sang định dạng HTML. Sẽ hay hơn nếu chủ sở hữu quyền có thể opt-out khỏi việc chuyển đổi này...

Ngày xưa tôi từng viết luận văn bằng LaTeX (đúng là xưa thật rồi T_T) và đã cảm thấy một sự phấn khích tột độ. Nội dung thì dở tệ, nhưng bản render quá sạch sẽ và đẹp đẽ nên đến giờ tôi vẫn còn nhớ cảm xúc khi đó. Nhìn TeX, tôi đã từng nghĩ kiểu như Knuth đúng là thần thánh... Dù sao thì, chợt nghĩ rằng ngoài nội dung của tác phẩm mình viết ra, cũng sẽ có những người xem trọng cả định dạng của bài báo lẫn những chi tiết trong cách thể hiện nó.

xguru 2021-09-17

Xem qua thư viện mẫu thì chất lượng khá ổn, dùng được đấy.

https://papertohtml.org/gallery

Cũng khiến tôi nghĩ rằng nếu Google Scholar áp dụng kiểu này thì có lẽ sẽ tiện hơn.

Paper to HTML - Chuyển đổi bài báo thành HTML dễ đọc

Bài viết liên quan

3 bình luận