5 điểm bởi GN⁺ 2024-10-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Công cụ chuyển đổi website thành ePub
  • Trích xuất danh sách các trang HTML từ website và biên dịch chúng thành sách ePub để có thể nhập vào eReader mong muốn
  • Người dùng nâng cao có thể viết JavaScript để thêm định nghĩa parser bổ sung nhằm tùy chỉnh việc phân tích cho từng trang web

Các trang được hỗ trợ

  • Novel Update
  • Wuxia World
  • Phần lớn các trang trong awesome-read-the-docs
  • Các trang tùy chỉnh sử dụng phần tử UL/OL làm mục lục, hoặc dùng biểu thức chính quy trên văn bản liên kết, hoặc dùng query selector
  • Các ứng dụng web tùy chỉnh sử dụng phần tử tiêu đề (header) được định nghĩa sẵn và nút tiếp theo (có thể nhấp)

Tổng hợp của GN⁺

  • Epublifier là công cụ giúp chuyển nội dung website sang định dạng ePub để có thể đọc dễ dàng trên eReader
  • Công cụ này đặc biệt hỗ trợ các trang như Novel Update và Wuxia World; người dùng nâng cao cũng có thể tùy chỉnh việc phân tích thông qua JavaScript
  • Công cụ này hữu ích cho người muốn đọc nội dung web ngoại tuyến; một công cụ khác có tính năng tương tự là Calibre

1 bình luận

 
GN⁺ 2024-10-22
Ý kiến trên Hacker News
  • Calibre hỗ trợ rất nhiều trang web
  • Tiện ích mở rộng này muốn giải thích lý do nó khác biệt với các công cụ scraper khác
    • Nó được tạo ra để sinh EPub cho những trang web mà các scraper truyền thống không hoạt động tốt
    • Các scraper dòng lệnh thông thường và những tiện ích mở rộng khác chỉ hoạt động trên các trang đã được định nghĩa sẵn
    • Có thể cần cấu hình phức tạp hoặc phải viết mã
    • Một số trang dùng JavaScript để tạo hoặc tải văn bản một cách động
    • Vì chạy trong trình duyệt nên ít có khả năng bị phát hiện và chặn hơn
    • Nó không dành cho việc sử dụng lặp đi lặp lại hoặc chạy nền
    • Cung cấp UI để có thể scrape dễ dàng mà không cần cấu hình cho từng trang
    • Không thể kỳ vọng hiệu năng tốt hơn trên những trang mà các chương trình/tiện ích mở rộng khác đã xử lý sẵn
    • Tác giả làm nó vì nó không bị cố định vào một trang cụ thể
  • Điểm thú vị của chương trình này là UI để trích xuất nội dung từ các trang bất kỳ
  • Sẽ rất tuyệt nếu nó có thể xử lý những trang mà mọi phần đều bị ẩn sau accordion
  • Tôi cũng đang làm một thứ tương tự
    • Đang phát triển một web scraper và trình phân tích ePub cho blog, web novel, v.v.
    • Cũng đang phát triển một ứng dụng đồng hành PWA để đọc offline
  • Đôi khi tôi muốn lấy các bài luận của Paul Graham dưới dạng ePub
  • Tôi từng làm một phiên bản đơn giản và lưu các tệp ePub vào hệ thống tệp của máy chủ
    • Dùng Postlight Parser để cung cấp chế độ xem tài liệu đã được đơn giản hóa của trang web
  • Công cụ này thật đáng kinh ngạc
    • Đã qua rồi thời phải cache hàng loạt trang web để đi du lịch offline
  • Tôi tự hỏi nó có hỗ trợ fanfiction.net không
  • Tôi rất muốn chạy nó trên những trang có nhiều tài liệu như AWS, VueJS, MDN, w3schools, realpython, betterstack