39 điểm bởi xguru 2022-08-15 | 6 bình luận | Chia sẻ qua WhatsApp

Các câu trả lời cho câu hỏi trên HN

  • Playwright: ngày càng có nhiều trang web cần chạy JS, nên dùng công cụ tự động hóa trình duyệt sẽ tiện hơn
  • Beautiful Soup: gói Python tiện để xây dựng nhiều ứng dụng scraping khác nhau
  • Trong shell: cURL + pup (markup) / cskit (CSV) / jq (JSON) / psql (DB)
  • Browserflow: công cụ tự động hóa tác vụ dựa trên trình duyệt web
  • curl-impersonate: phiên bản fork dùng để tải trang web giống như trình duyệt
  • Helium: Selenium-Python dễ dùng hơn
  • undetected_chromedriver: Chromedriver Selenium tùy biến có thể vượt qua kiểm tra bot của CloudFlare
  • estela: cụm web scraping co giãn chạy trên Kubernetes

6 bình luận

 
yangeok 2022-08-24

Tôi nghe nói sau khi đội ngũ puppeteer được sáp nhập vào MS thì nó đã trở thành playwright luôn.

 
youth 2022-08-15

Mình thấy các công cụ như Playwright, Scrapy khá tốt vì phía nhà phát triển bảo trì rất ổn.
Cá nhân mình dùng plugin scrapy-playwright khá nhiều.

 
vwjdalsgkv 2022-08-15

Không thấy Peppeteer, chắc là nhiều người đã chuyển sang Playwright rồi nhỉ.

 
xguru 2022-08-16

Ngay cả trong phần bình luận, đa số những người đã thực sự dùng thử đều nói rằng Playwright là tốt.

 
jjpark78 2022-08-15

Tôi chọn Playwright

 
cometkim 2022-08-15

Tôi thường dùng HTMLRewriter của Cloudflare.