26 điểm bởi xguru 2021-10-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Web scraping là gì?

  • Các framework chính dùng cho web scraping là gì?

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

  • Các framework web scraping trả phí cấp độ doanh nghiệp

→ Scraper API: hỗ trợ xoay vòng proxy, giải captcha, kiểm tra anti-bot

→ Apify: cung cấp hàng nghìn plugin do cộng đồng phát triển

→ Parsehub: công cụ no-code dạng point-and-click sử dụng ứng dụng desktop

→ Diffbot: hỗ trợ trích xuất dữ liệu bằng big data/machine learning từ dữ liệu công ty/bán lẻ/tin tức/diễn đàn/sự kiện... thu thập từ web

→ Octoparse: giống Parsehub, dùng phương thức point-and-click. Hỗ trợ xoay vòng IP, làm sạch dữ liệu bằng công cụ regex và scraping khối lượng lớn

→ ScrapingBee: công cụ không cần code cung cấp các tính năng phức tạp

  • Ví dụ web scraping bằng Python: dùng Beautiful Soup

  • Ví dụ JavaScript (Node.js): tìm kiếm Google bằng Puppeteer

  • Những điều nên và không nên khi web scraping

→ Chỉ sử dụng một kết nối IP

→ Crawl vào thời điểm không phải giờ cao điểm

→ Tuân thủ ToS của trang web

→ Tuân thủ các quy tắc trong robots.txt

→ Nếu crawl để hiển thị nội dung theo cách khác, hãy đưa ra một giải pháp độc đáo thay vì chỉ sao chép đơn thuần

→ Tuân thủ các quy định GDPR / CCPA

1 bình luận

 
xguru 2021-10-05

Hãy tham khảo thêm bài viết "Web scraping is now legal" ở cuối bài.

Đây là trường hợp Linkedin yêu cầu công ty phân tích HiQ ngừng crawling nhưng đã bị tòa án Mỹ bác bỏ.

https://medium.com/@tjwaterman99/…