HTML như một định dạng dễ tiếp cận cho các bài báo khoa học (2023)
(info.arxiv.org)- arXiv bắt đầu cung cấp bài báo ở định dạng HTML cùng với PDF nhằm cải thiện khả năng tiếp cận nghiên cứu
- Trong hơn 2 triệu bài báo, một số không có phiên bản HTML do giới hạn của chuyển đổi tự động, và chất lượng chuyển đổi sẽ tiếp tục được cải thiện
- HTML có lợi thế về khả năng tiếp cận nhờ tương thích cao với trình đọc màn hình, chuyển giọng nói, thiết bị di động và các công nghệ hỗ trợ khác
- Cộng đồng có thể tham gia trực tiếp vào dự án thông qua báo lỗi và cải thiện chuyển đổi LaTeX
- Nỗ lực này cho thấy định hướng dài hạn của arXiv nhằm mở rộng tính bao trùm và khả năng tiếp cận của nghiên cứu khoa học
Tổng quan về việc cung cấp bài báo ở định dạng HTML
- arXiv đang tăng khả năng tiếp cận nghiên cứu bằng cách đưa vào định dạng bài báo HTML bên cạnh PDF truyền thống
- Theo phản hồi từ cộng đồng, việc cung cấp HTML được đánh giá là biện pháp có thể tạo tác động lớn nhất trong ngắn hạn
- Phiên bản HTML được hiển thị bên dưới liên kết tải PDF trên trang tóm tắt của bài báo
- Tác giả có thể xem trước HTML của bài báo trong quá trình nộp bài
- arXiv đang dần bổ sung HTML cho hơn 2 triệu bài báo, nhưng một số bài không có HTML do chuyển đổi thất bại
- Việc ra mắt HTML beta mới chỉ là bước khởi đầu, và cải thiện chất lượng chuyển đổi LaTeX cùng việc thu thập phản hồi vẫn đang tiếp tục
Vì sao được gọi là HTML “thử nghiệm”
- Hơn 90% bài nộp lên arXiv ở định dạng TeX (chủ yếu là LaTeX), nên có những thách thức kỹ thuật trong việc chuyển đổi chính xác sang HTML
- LaTeX có khả năng mở rộng cao và cách sử dụng rất đa dạng tùy theo tác giả
- HTML có khả năng tương thích vượt trội với trình đọc màn hình, chuyển giọng nói, kính lúp màn hình và thiết bị di động
- Việc chuyển đổi phải duy trì tính tự động và tốc độ, nên rất khó đạt được hiển thị hoàn hảo
- Có hai lý do để phát hành dưới tên HTML “thử nghiệm”
- Cần có bài báo dễ tiếp cận ngay từ bây giờ — các nhà nghiên cứu có nhu cầu về khả năng tiếp cận đã đề nghị không trì hoãn việc phát hành
- Cần sự hỗ trợ của cộng đồng — để tiếp nhận báo cáo lỗi chuyển đổi và theo dõi các vấn đề với những gói LaTeX cụ thể
Những lỗi có thể xảy ra trong bài báo HTML
- Các bài báo HTML hiện vẫn là một sản phẩm đang tiếp tục được cải thiện, nên có thể phát sinh lỗi chuyển đổi hoặc vấn đề hiển thị
- arXiv đang chia sẻ nguyên nhân gây lỗi và cách để tác giả có thể giảm thiểu chúng
- Có thể xem chi tiết liên quan trên một trang riêng
Cách cộng đồng có thể tham gia
-
1) Đọc bài báo HTML và báo cáo vấn đề
- Nhấp vào liên kết HTML trên trang tóm tắt của bài báo quan tâm để xem
- Có thể báo cáo vấn đề bằng nút Open Issue, báo sau khi chọn văn bản, hoặc phím tắt Ctrl+?
- Người dùng trình đọc màn hình có thể dùng Alt+y để chuyển nút báo cáo khả năng tiếp cận theo từng đoạn
- arXiv đề nghị không báo cáo chỉ vì HTML không trông giống hệt PDF
- HTML ưu tiên chức năng hơn hình thức, nên khác biệt về ngắt dòng và khoảng trắng là thiết kế có chủ đích
- HTML vượt trội hơn PDF về khả năng tương thích với công nghệ hỗ trợ và khả năng thích ứng với thiết bị
-
2) Hỗ trợ cải thiện chuyển đổi LaTeX
- Tác giả có thể nâng cao chất lượng chuyển đổi bằng cách làm theo hướng dẫn thực hành tốt nhất về đánh dấu LaTeX của arXiv
- Nhà phát triển có thể đóng góp cải thiện chuyển đổi thông qua danh sách issue của dự án LaTeXML
- Hội nghị hoặc nhà xuất bản có thể hợp tác nâng cao khả năng tiếp cận bằng cách rà soát các tệp
.clssử dụng những gói chưa được hỗ trợ
Lời cảm ơn tới các cộng tác viên
- Trong toàn bộ dự án, những lời khuyên và chuyên môn của các nhà khoa học khuyết tật đã đóng vai trò rất lớn
- Việc triển khai bài báo HTML có được nhờ sự hợp tác giữa LaTeX Project và nhóm LaTeXML của NIST
- arXiv bày tỏ lòng biết ơn sâu sắc đối với kiến thức, kỹ năng và cam kết với khả năng tiếp cận của hai nhóm này
1 bình luận
Ý kiến trên Hacker News
Với tư cách là người phát triển arXiv HTML Papers, tôi xin chia sẻ một cập nhật ngắn
Hiện tôi biết rõ còn nhiều vấn đề về chất lượng và độ bao phủ trong việc render bài báo. Nếu phát hiện các vấn đề này, mong mọi người báo tại trang issue trên GitHub
Thiếu thời gian phát triển là nút thắt lớn nhất, và chìa khóa để cải thiện phía LaTeX vẫn là LaTeXML
Tôi thích đọc các bài báo arXiv ở định dạng HTML hơn nhiều so với PDF
Có thể tận dụng nguyên các tiện ích mở rộng của trình duyệt để dịch, ghi chú, gửi vào LLM và làm nhiều việc khác một cách dễ dàng
Hiện arXiv có dịch vụ HTML mặc định (https://arxiv.org/html/xxxx.xxxxx) và một dịch vụ thay thế (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
Tuy nhiên, dịch vụ mặc định có vấn đề độ bao phủ rất nghiêm trọng; ví dụ bài báo này không hoạt động. Đôi khi chuyển sang dịch vụ thay thế thì giải quyết được, nhưng cũng có trường hợp cả hai đều thất bại (ví dụ)
Nếu Unicode Consortium tập trung hơn vào hỗ trợ ký hiệu toán học thay vì emoji, có lẽ chúng ta đã có thể thoát khỏi cấu trúc xoay quanh (LA)TeX/PDF
OpenType và TrueType đã hỗ trợ render phức tạp, và cũng có thể dùng font fallback
Vấn đề không phải là giới hạn kỹ thuật mà là quyết định về mặt chính sách rằng chúng không thuộc tầng ký hiệu
Điều thú vị là Gemini 3 Pro luôn ép xuất công thức LaTeX bất kể cấu hình thế nào. Tôi đã chia sẻ kết quả thử nghiệm ở đây
Vì Unicode về bản chất là một hệ thống ký tự chứ không phải hệ thống dàn trang
Bài báo dựa trên HTML hoàn toàn khả thi, nhưng các nhà nghiên cứu vẫn cố chấp với bố cục hai cột truyền thống và phông chữ serif
Vấn đề là văn hóa “phải trông như một bài báo thật” quan trọng hơn khả năng tiếp cận trên di động hay tính dễ đọc
Bước 1 đặt câu hỏi, bước 2 dùng một mô hình nhỏ để chuyển ký pháp LaTeX thành biểu thức Unicode
Bài báo HTML thực ra đã được cung cấp từ vài năm trước
Thực tế, có thể xác nhận chúng được giới thiệu vào năm 2023 qua blog chính thức
Vì 90% bài báo trên arXiv dựa trên LaTeX, nên việc chuyển đổi là cực kỳ khó.
Bài toán cốt lõi là tăng khả năng tiếp cận trong khi vẫn giữ quá trình chuyển đổi nhanh và tự động
Với tư cách là tác giả thường dùng các cấu trúc TeX phức tạp, từ sau khi đưa chuyển đổi HTML vào, khối lượng công việc đã tăng lên đáng kể
Tốc độ chuyển đổi cũng chậm và không có cách nào để mô phỏng cục bộ
Dù vậy, tôi vẫn nghĩ đây là một nỗ lực tốt vì mục tiêu cải thiện khả năng tiếp cận
Tôi nghĩ sẽ rất tốt nếu bài báo cũng được cung cấp ở định dạng epub. Tôi không rõ có khó khăn kỹ thuật nào hay đơn giản là nhu cầu chưa đủ
Nhưng tôi chưa từng thấy trình đọc nào hiển thị đẹp hoặc dễ đọc ngang PDF. Tính năng chú thích cũng thiếu khả năng tương thích giữa các nền tảng
Việc bắt nhà nghiên cứu phải đảm bảo luôn cả chất lượng đó là không hiệu quả, nên nếu cần thì cứ tự dùng bộ chuyển đổi HTML→epub
Vấn đề khả năng tiếp cận trong nghiên cứu không phải là mới, nhưng hiện tại là thời điểm cấp thiết nhất
Việc arXiv cung cấp bài báo HTML cùng với PDF có thể tạo ra thay đổi lớn nhất và nhanh nhất
Điều khiến tôi khó chịu nhất là việc nhúng video trong bài báo bị hạn chế
Chỉ có thể đính kèm như tài liệu bổ sung hoặc cung cấp qua liên kết ngoài.
Tôi mong có thể nhúng trực tiếp GIF hoặc video vào phần thân bài báo
Khi đọc lời giải thích “90% dựa trên LaTeX nên khó chuyển đổi”, tôi nghĩ đây thực sự là một công việc đầy thách thức. Dù sao vẫn là một thử nghiệm tốt
Khoảng năm 1998, khi phụ trách biên tập báo trường, tôi từng đề xuất chuyển sang HTML thay vì Corel Draw
Nhưng rốt cuộc khi đó cũng từ bỏ việc áp dụng HTML vì đúng những lý do giống như trong các bình luận hiện nay