1 bình luận

 
GN⁺ 2024-04-15
Ý kiến trên Hacker News

Tóm tắt như sau:

  • Trong quá trình phát triển một công cụ chuyển đổi trang web sang Markdown, có những băn khoăn về quản lý tải và tính bền vững của dịch vụ miễn phí
  • Các vấn đề quan trọng khi chuyển đổi trang web sang Markdown gồm:
    1. Scrape nội dung trang một cách triệt để (độ bao phủ cao)
    2. Loại bỏ quảng cáo/nội dung phụ trợ (độ chính xác cao)
    3. Trích xuất đúng bố cục/loại mục (định dạng)
  • Các công cụ mã nguồn mở hiện có (Trafilatura, Newspaper4k, python-readability v.v.) đã cho thấy hiệu năng ở mức khá tốt. Muốn biết điểm khác biệt hoặc hướng cải thiện là gì
  • Với các trang hiện thông báo cookie, có vấn đề là chỉ parse nội dung liên quan đến cookie thay vì nội dung thực tế (ví dụ: cnbc.com)
  • Ý tưởng dùng GPT để tải xuống và lọc hình ảnh là khá hay
  • Giới thiệu một số công cụ tương tự:
    • url2text.com: có thể trích xuất cùng lúc HTML được render bằng JS, metadata, screenshot v.v.
    • firecrawl.dev: cung cấp khả năng crawl toàn bộ website chứ không chỉ một trang đơn lẻ
    • substack-ai.vercel.app: chuyên trích xuất nội dung bản tin Substack
    • content-parser.com: hỗ trợ nhiều định dạng như Markdown, HTML, văn bản, PDF v.v.
  • Có thể triển khai chức năng tương tự bằng các công cụ chuyển đổi tài liệu đa năng như pandoc
  • Phần lớn công cụ được phát triển dựa trên dự án readability của Mozilla