9 điểm bởi xguru 2021-09-17 | 3 bình luận | Chia sẻ qua WhatsApp
<p>- Sử dụng machine learning để đọc nội dung từ PDF, LaTeX, PubMed Central XML và chuyển đổi sang HTML <br /> - Mục tiêu là tăng khả năng tiếp cận <br /> - Nguyên mẫu thử nghiệm của Semantic Scholar, công cụ tìm kiếm tài liệu nghiên cứu dựa trên AI <br /> - Hiện tại chỉ lưu đệm hình ảnh/nội dung đã trích xuất, và được dùng để phục vụ nhanh hơn cho những người tải lên cùng một tài liệu. Không lưu trữ tệp đã tải lên <br /> - Hạn chế<br /> → Bảng (Table) được trích xuất dưới dạng hình ảnh <br /> → Nội dung toán học (Math) có độ chính xác thấp hoặc hầu như không được trích xuất <br /> → Xử lý LaTeX/PubMed có thể thiếu một số tính năng so với PDF <br /> - Trong tương lai có kế hoạch bổ sung tính năng trợ năng vào Semantic Scholar </p>

3 bình luận

 
v08zbv8fvlkjasdflkj 2021-09-23
<p>Khi chuyển đổi PDF sang định dạng khác (tôi thích epub), vấn đề nằm ở các bảng và công thức được liệt kê ở trên; nếu phần công thức không xử lý tốt thì tôi không rõ điểm mạnh là gì. <br /> --<br /> Xem demo thì có vẻ khá dùng được.</p>
 
indigo6 2021-09-18
<p>Có vẻ sẽ tiện hơn thật, nhưng cũng có lẽ sẽ có người không muốn bài báo của mình bị chuyển sang định dạng HTML. Sẽ hay hơn nếu chủ sở hữu quyền có thể `opt-out` khỏi việc chuyển đổi này...<br /> <br /> Ngày xưa tôi từng viết luận văn bằng LaTeX (đúng là xưa thật rồi T_T) và đã cảm thấy một sự phấn khích tột độ. Nội dung thì dở tệ, nhưng bản render quá sạch sẽ và đẹp đẽ nên đến giờ tôi vẫn còn nhớ cảm xúc khi đó. Nhìn TeX, tôi đã từng nghĩ kiểu như Knuth đúng là thần thánh... Dù sao thì, chợt nghĩ rằng ngoài nội dung của tác phẩm mình viết ra, cũng sẽ có những người xem trọng cả định dạng của bài báo lẫn những chi tiết trong cách thể hiện nó.</p>
 
xguru 2021-09-17
<p>Xem qua thư viện mẫu thì chất lượng khá ổn, dùng được đấy.<br /> https://papertohtml.org/gallery<br /> <br /> Cũng khiến tôi nghĩ rằng nếu Google Scholar áp dụng kiểu này thì có lẽ sẽ tiện hơn.</p>