2 điểm bởi GN⁺ 2025-12-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • arXiv bắt đầu cung cấp bài báo ở định dạng HTML cùng với PDF nhằm cải thiện khả năng tiếp cận nghiên cứu
  • Trong hơn 2 triệu bài báo, một số không có phiên bản HTML do giới hạn của chuyển đổi tự động, và chất lượng chuyển đổi sẽ tiếp tục được cải thiện
  • HTML có lợi thế về khả năng tiếp cận nhờ tương thích cao với trình đọc màn hình, chuyển giọng nói, thiết bị di động và các công nghệ hỗ trợ khác
  • Cộng đồng có thể tham gia trực tiếp vào dự án thông qua báo lỗi và cải thiện chuyển đổi LaTeX
  • Nỗ lực này cho thấy định hướng dài hạn của arXiv nhằm mở rộng tính bao trùm và khả năng tiếp cận của nghiên cứu khoa học

Tổng quan về việc cung cấp bài báo ở định dạng HTML

  • arXiv đang tăng khả năng tiếp cận nghiên cứu bằng cách đưa vào định dạng bài báo HTML bên cạnh PDF truyền thống
    • Theo phản hồi từ cộng đồng, việc cung cấp HTML được đánh giá là biện pháp có thể tạo tác động lớn nhất trong ngắn hạn
  • Phiên bản HTML được hiển thị bên dưới liên kết tải PDF trên trang tóm tắt của bài báo
    • Tác giả có thể xem trước HTML của bài báo trong quá trình nộp bài
  • arXiv đang dần bổ sung HTML cho hơn 2 triệu bài báo, nhưng một số bài không có HTML do chuyển đổi thất bại
  • Việc ra mắt HTML beta mới chỉ là bước khởi đầu, và cải thiện chất lượng chuyển đổi LaTeX cùng việc thu thập phản hồi vẫn đang tiếp tục

Vì sao được gọi là HTML “thử nghiệm”

  • Hơn 90% bài nộp lên arXiv ở định dạng TeX (chủ yếu là LaTeX), nên có những thách thức kỹ thuật trong việc chuyển đổi chính xác sang HTML
    • LaTeX có khả năng mở rộng cao và cách sử dụng rất đa dạng tùy theo tác giả
    • HTML có khả năng tương thích vượt trội với trình đọc màn hình, chuyển giọng nói, kính lúp màn hình và thiết bị di động
  • Việc chuyển đổi phải duy trì tính tự động và tốc độ, nên rất khó đạt được hiển thị hoàn hảo
  • Có hai lý do để phát hành dưới tên HTML “thử nghiệm”
    1. Cần có bài báo dễ tiếp cận ngay từ bây giờ — các nhà nghiên cứu có nhu cầu về khả năng tiếp cận đã đề nghị không trì hoãn việc phát hành
    2. Cần sự hỗ trợ của cộng đồng — để tiếp nhận báo cáo lỗi chuyển đổi và theo dõi các vấn đề với những gói LaTeX cụ thể

Những lỗi có thể xảy ra trong bài báo HTML

  • Các bài báo HTML hiện vẫn là một sản phẩm đang tiếp tục được cải thiện, nên có thể phát sinh lỗi chuyển đổi hoặc vấn đề hiển thị
  • arXiv đang chia sẻ nguyên nhân gây lỗi và cách để tác giả có thể giảm thiểu chúng
  • Có thể xem chi tiết liên quan trên một trang riêng

Cách cộng đồng có thể tham gia

  • 1) Đọc bài báo HTML và báo cáo vấn đề

    • Nhấp vào liên kết HTML trên trang tóm tắt của bài báo quan tâm để xem
    • Có thể báo cáo vấn đề bằng nút Open Issue, báo sau khi chọn văn bản, hoặc phím tắt Ctrl+?
    • Người dùng trình đọc màn hình có thể dùng Alt+y để chuyển nút báo cáo khả năng tiếp cận theo từng đoạn
    • arXiv đề nghị không báo cáo chỉ vì HTML không trông giống hệt PDF
    • HTML ưu tiên chức năng hơn hình thức, nên khác biệt về ngắt dòng và khoảng trắng là thiết kế có chủ đích
    • HTML vượt trội hơn PDF về khả năng tương thích với công nghệ hỗ trợ và khả năng thích ứng với thiết bị
  • 2) Hỗ trợ cải thiện chuyển đổi LaTeX

    • Tác giả có thể nâng cao chất lượng chuyển đổi bằng cách làm theo hướng dẫn thực hành tốt nhất về đánh dấu LaTeX của arXiv
    • Nhà phát triển có thể đóng góp cải thiện chuyển đổi thông qua danh sách issue của dự án LaTeXML
    • Hội nghị hoặc nhà xuất bản có thể hợp tác nâng cao khả năng tiếp cận bằng cách rà soát các tệp .cls sử dụng những gói chưa được hỗ trợ

Lời cảm ơn tới các cộng tác viên

  • Trong toàn bộ dự án, những lời khuyên và chuyên môn của các nhà khoa học khuyết tật đã đóng vai trò rất lớn
  • Việc triển khai bài báo HTML có được nhờ sự hợp tác giữa LaTeX Projectnhóm LaTeXML của NIST
  • arXiv bày tỏ lòng biết ơn sâu sắc đối với kiến thức, kỹ năng và cam kết với khả năng tiếp cận của hai nhóm này

1 bình luận

 
GN⁺ 2025-12-08
Ý kiến trên Hacker News
  • Với tư cách là người phát triển arXiv HTML Papers, tôi xin chia sẻ một cập nhật ngắn
    Hiện tôi biết rõ còn nhiều vấn đề về chất lượng và độ bao phủ trong việc render bài báo. Nếu phát hiện các vấn đề này, mong mọi người báo tại trang issue trên GitHub
    Thiếu thời gian phát triển là nút thắt lớn nhất, và chìa khóa để cải thiện phía LaTeX vẫn là LaTeXML

  • Tôi thích đọc các bài báo arXiv ở định dạng HTML hơn nhiều so với PDF
    Có thể tận dụng nguyên các tiện ích mở rộng của trình duyệt để dịch, ghi chú, gửi vào LLM và làm nhiều việc khác một cách dễ dàng
    Hiện arXiv có dịch vụ HTML mặc định (https://arxiv.org/html/xxxx.xxxxx) và một dịch vụ thay thế (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
    Tuy nhiên, dịch vụ mặc định có vấn đề độ bao phủ rất nghiêm trọng; ví dụ bài báo này không hoạt động. Đôi khi chuyển sang dịch vụ thay thế thì giải quyết được, nhưng cũng có trường hợp cả hai đều thất bại (ví dụ)

  • Nếu Unicode Consortium tập trung hơn vào hỗ trợ ký hiệu toán học thay vì emoji, có lẽ chúng ta đã có thể thoát khỏi cấu trúc xoay quanh (LA)TeX/PDF
    OpenType và TrueType đã hỗ trợ render phức tạp, và cũng có thể dùng font fallback
    Vấn đề không phải là giới hạn kỹ thuật mà là quyết định về mặt chính sách rằng chúng không thuộc tầng ký hiệu
    Điều thú vị là Gemini 3 Pro luôn ép xuất công thức LaTeX bất kể cấu hình thế nào. Tôi đã chia sẻ kết quả thử nghiệm ở đây

    • Dù có xử lý tốt chỉ số trên và chỉ số dưới đến đâu, những biểu diễn công thức cơ bản như phân số hay dấu ngoặc co giãn vẫn là bất khả thi
      Vì Unicode về bản chất là một hệ thống ký tự chứ không phải hệ thống dàn trang
    • Biểu thức toán học phức tạp hơn emoji rất nhiều. Tôi nghĩ thật khó để so sánh trực tiếp
    • Cũng khá bất ngờ khi chỉ Gemini 3 gặp vấn đề đó. Hầu hết LLM có lẽ đều xoay quanh LaTeX, nên ngược lại đây có vẻ là kết quả tự nhiên như một chuẩn mực
    • Thực ra câu nói “cần LaTeX vì toán học” chỉ là một cái cớ đã cũ
      Bài báo dựa trên HTML hoàn toàn khả thi, nhưng các nhà nghiên cứu vẫn cố chấp với bố cục hai cột truyền thống và phông chữ serif
      Vấn đề là văn hóa “phải trông như một bài báo thật” quan trọng hơn khả năng tiếp cận trên di động hay tính dễ đọc
    • Tôi đề xuất cách tiếp cận hai bước.
      Bước 1 đặt câu hỏi, bước 2 dùng một mô hình nhỏ để chuyển ký pháp LaTeX thành biểu thức Unicode
  • Bài báo HTML thực ra đã được cung cấp từ vài năm trước
    Thực tế, có thể xác nhận chúng được giới thiệu vào năm 2023 qua blog chính thức

    • Tại sao lại là HTML “thử nghiệm” (Experimental)?
      Vì 90% bài báo trên arXiv dựa trên LaTeX, nên việc chuyển đổi là cực kỳ khó.
      Bài toán cốt lõi là tăng khả năng tiếp cận trong khi vẫn giữ quá trình chuyển đổi nhanh và tự động
    • Tài liệu liên quan có ở trang tài liệu GitHub. Có nhắc rằng cần gắn thẻ năm 2023
  • Với tư cách là tác giả thường dùng các cấu trúc TeX phức tạp, từ sau khi đưa chuyển đổi HTML vào, khối lượng công việc đã tăng lên đáng kể
    Tốc độ chuyển đổi cũng chậm và không có cách nào để mô phỏng cục bộ
    Dù vậy, tôi vẫn nghĩ đây là một nỗ lực tốt vì mục tiêu cải thiện khả năng tiếp cận

  • Tôi nghĩ sẽ rất tốt nếu bài báo cũng được cung cấp ở định dạng epub. Tôi không rõ có khó khăn kỹ thuật nào hay đơn giản là nhu cầu chưa đủ

    • epub về thực chất là dựa trên HTML
      Nhưng tôi chưa từng thấy trình đọc nào hiển thị đẹp hoặc dễ đọc ngang PDF. Tính năng chú thích cũng thiếu khả năng tương thích giữa các nền tảng
    • epub rốt cuộc chỉ là thành phẩm được trau chuốt từ HTML/CSS.
      Việc bắt nhà nghiên cứu phải đảm bảo luôn cả chất lượng đó là không hiệu quả, nên nếu cần thì cứ tự dùng bộ chuyển đổi HTML→epub
    • Cũng có ý kiến đặt câu hỏi “vì sao cần epub?” vì rốt cuộc nó vẫn là HTML
  • Vấn đề khả năng tiếp cận trong nghiên cứu không phải là mới, nhưng hiện tại là thời điểm cấp thiết nhất
    Việc arXiv cung cấp bài báo HTML cùng với PDF có thể tạo ra thay đổi lớn nhất và nhanh nhất

    • Tôi thấy rất biết ơn khi được xem preprint của mình dưới dạng HTML. Tôi cũng muốn biết cộng đồng có thể đóng góp như thế nào
  • Điều khiến tôi khó chịu nhất là việc nhúng video trong bài báo bị hạn chế
    Chỉ có thể đính kèm như tài liệu bổ sung hoặc cung cấp qua liên kết ngoài.
    Tôi mong có thể nhúng trực tiếp GIF hoặc video vào phần thân bài báo

  • Khi đọc lời giải thích “90% dựa trên LaTeX nên khó chuyển đổi”, tôi nghĩ đây thực sự là một công việc đầy thách thức. Dù sao vẫn là một thử nghiệm tốt

  • Khoảng năm 1998, khi phụ trách biên tập báo trường, tôi từng đề xuất chuyển sang HTML thay vì Corel Draw
    Nhưng rốt cuộc khi đó cũng từ bỏ việc áp dụng HTML vì đúng những lý do giống như trong các bình luận hiện nay