Tình hình web scraping năm 2021
(mihaisplace.blog)-
Web scraping là gì?
-
Các framework chính dùng cho web scraping là gì?
→ Python: Scrapy, Beautiful Soup, MechanicalSoup
→ JS: Cheerio, Puppeteer, Apify SDK
→ Java: Jaunt, jsoup
→ Ruby: Kimurai
→ PHP: Goutte
- Các framework web scraping trả phí cấp độ doanh nghiệp
→ Scraper API: hỗ trợ xoay vòng proxy, giải captcha, kiểm tra anti-bot
→ Apify: cung cấp hàng nghìn plugin do cộng đồng phát triển
→ Parsehub: công cụ no-code dạng point-and-click sử dụng ứng dụng desktop
→ Diffbot: hỗ trợ trích xuất dữ liệu bằng big data/machine learning từ dữ liệu công ty/bán lẻ/tin tức/diễn đàn/sự kiện... thu thập từ web
→ Octoparse: giống Parsehub, dùng phương thức point-and-click. Hỗ trợ xoay vòng IP, làm sạch dữ liệu bằng công cụ regex và scraping khối lượng lớn
→ ScrapingBee: công cụ không cần code cung cấp các tính năng phức tạp
-
Ví dụ web scraping bằng Python: dùng Beautiful Soup
-
Ví dụ JavaScript (Node.js): tìm kiếm Google bằng Puppeteer
-
Những điều nên và không nên khi web scraping
→ Chỉ sử dụng một kết nối IP
→ Crawl vào thời điểm không phải giờ cao điểm
→ Tuân thủ ToS của trang web
→ Tuân thủ các quy tắc trong robots.txt
→ Nếu crawl để hiển thị nội dung theo cách khác, hãy đưa ra một giải pháp độc đáo thay vì chỉ sao chép đơn thuần
→ Tuân thủ các quy định GDPR / CCPA
1 bình luận
Hãy tham khảo thêm bài viết "Web scraping is now legal" ở cuối bài.
Đây là trường hợp Linkedin yêu cầu công ty phân tích HiQ ngừng crawling nhưng đã bị tòa án Mỹ bác bỏ.
https://medium.com/@tjwaterman99/…