Tính đến năm 2022, công cụ web scraping tốt nhất là gì?
(news.ycombinator.com)Các câu trả lời cho câu hỏi trên HN
- Playwright: ngày càng có nhiều trang web cần chạy JS, nên dùng công cụ tự động hóa trình duyệt sẽ tiện hơn
- Beautiful Soup: gói Python tiện để xây dựng nhiều ứng dụng scraping khác nhau
- Trong shell: cURL + pup (markup) / cskit (CSV) / jq (JSON) / psql (DB)
- Browserflow: công cụ tự động hóa tác vụ dựa trên trình duyệt web
- curl-impersonate: phiên bản fork dùng để tải trang web giống như trình duyệt
- Helium: Selenium-Python dễ dùng hơn
- undetected_chromedriver: Chromedriver Selenium tùy biến có thể vượt qua kiểm tra bot của CloudFlare
- estela: cụm web scraping co giãn chạy trên Kubernetes
6 bình luận
Tôi nghe nói sau khi đội ngũ puppeteer được sáp nhập vào MS thì nó đã trở thành playwright luôn.
Mình thấy các công cụ như Playwright, Scrapy khá tốt vì phía nhà phát triển bảo trì rất ổn.
Cá nhân mình dùng plugin
scrapy-playwrightkhá nhiều.Không thấy
Peppeteer, chắc là nhiều người đã chuyển sang Playwright rồi nhỉ.Ngay cả trong phần bình luận, đa số những người đã thực sự dùng thử đều nói rằng Playwright là tốt.
Tôi chọn Playwright
Tôi thường dùng HTMLRewriter của Cloudflare.