17 điểm bởi xguru 2024-06-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Trình lưu trữ Multi-Page Application (MPA) có thể crawl ứng dụng web nhiều trang vào một file Zip và phục vụ ngay lập tức
  • Chạy mpa http://example.net sẽ crawl đệ quy bằng Puppeteer chạy headless ( sử dụng số luồng bằng CPU / 2 )
  • Lấy Sitemap và dùng làm seed point
  • Chỉ crawl URL của trang web, nhưng cũng fetch các tài nguyên bên ngoài
  • Lưu trữ các tài nguyên của trang web
  • Tạo mpa/sitemap.txtmpa/sitemap.xml
  • Có thể khởi động lại nếu bị gián đoạn. Lưu checkpoint sau mỗi 250 URL
  • Với SPA, có thể lưu HTML gốc bằng tùy chọn --spa

Chưa có bình luận nào.

Chưa có bình luận nào.