Nếu muốn web scraping như các tập đoàn lớn (2021)

(incolumitas.com)

7 điểm bởi GN⁺ 2024-04-28 | 1 bình luận | Chia sẻ qua WhatsApp

Chỉ với AWS Lambda và Headless Chrome cũng đã có thể thu thập hàng triệu Google SERP mỗi tuần, nhưng trước các trang được bảo vệ chặt chẽ, kiến trúc bot dựa trên cloud dễ nhanh chóng chạm giới hạn
Bằng cách gọi lại Lambda và tận dụng nhiều region, với 16 region có thể đồng thời dùng khoảng 16 * 250 = 4000 IP công khai, đủ cho các mục tiêu được bảo vệ lỏng lẻo
Các hãng chống bot như DataDome, Akamai, Imperva theo dõi sự không nhất quán trong cấu hình trình duyệt, dấu vết tự động hóa và thông tin fingerprint; bài toán thực sự gần với việc giảm tỷ lệ dương tính giả hơn là bản thân việc phát hiện
Đề xuất một kiến trúc ít bị phát hiện hơn: dùng thiết bị Android thật và IP di động thay vì Docker hay server cloud; IP 4G/5G/LTE được nhiều người dùng hợp lệ ở các đô thị lớn chia sẻ nên khó chặn
Trang trại thiết bị thật phải chấp nhận việc mua thiết bị, thuê mặt bằng theo thành phố, bảo trì tại chỗ và lỗi phần cứng; Android emulator cũng vẫn có rủi ro bị phát hiện là mô phỏng

Kiến trúc scraping quy mô lớn xây bằng AWS Lambda

Khi vận hành một dịch vụ scraping trước đây, tác giả từng thu thập tối đa hàng triệu Google SERP mỗi tuần, nhưng không dùng các nhà cung cấp proxy như Brightdata, Packetstream hay Oxylabs
- Cho rằng khó tin tưởng các khách hàng khác cùng chia sẻ băng thông proxy
- Scraping không DoS đối với thông tin công khai thì chấp nhận được, nhưng vạch ranh giới với gian lận quảng cáo, spam mạng xã hội, SQL injection tự động, XSS và các kiểu tấn công web tương tự
- Chi phí dịch vụ proxy cũng là một gánh nặng
Cấu hình thực tế là một function chạy trình duyệt trong 300 giây, đưa Headless Chrome vào AWS Lambda và dùng puppeteer-extra cùng chrome-aws-lambda
Google không chặn bot quá mạnh đối với công cụ tìm kiếm của chính mình mà chủ yếu áp dụng giới hạn tốc độ theo IP, nên nếu chỉ xét Google SERP thì có lẽ dùng curl cũng có thể làm được
Trên Lambda, sau 3 lần gọi function sẽ nhận được IP công khai mới; khi gọi đồng thời 1000 function thì đạt khoảng 250 IP công khai
- Tính ra nếu dùng 16 region thì có thể sử dụng đồng thời khoảng 4000 IP công khai
- Dù là IP trung tâm dữ liệu dùng chung, như vậy vẫn đủ để thu thập hàng triệu Google SERP mỗi tuần
Google Cloud Platform cũng đã được thử, nhưng Google chặn traffic từ hạ tầng cloud của chính họ mạnh hơn traffic từ AWS
Trải nghiệm này dựa trên giai đoạn 2019 và 2020; tình hình sau đó có thể đã thay đổi

Vì sao bot trên cloud bị chặn

Kiến trúc dựa trên Lambda có thể hoạt động với các mục tiêu cho phép scraping ở một mức độ nào đó như Google, Bing, Amazon, nhưng không phù hợp với các trang áp dụng bảo vệ mạnh
Các hãng chống bot như DataDome, Akamai, Imperva tìm kiếm fingerprint trình duyệt, sự không nhất quán trong cấu hình và các dấu vết khác với trình duyệt do con người điều khiển
Ví dụ về kỹ thuật phát hiện rất đa dạng
- Browser Red Pills
- Browser Based Port Scanning
- Google Picasso
- Font Fingerprinting
- TLS Fingerprinting
- WebGL Fingerprinting
- Phát hiện IP thật qua WebRTC
- Behavioral Classification
- Truy vấn Gyroscope API
- Fingerprinting bằng HTTP header, CSS feature query và font mà không cần JavaScript
Có rất nhiều cách phát hiện bot, và gần như mọi kiến trúc bot đều dễ bị phát hiện ở một mức nào đó
Bên tạo bot khó hơn bên phát hiện; thách thức lớn hơn của các hãng chống bot gần với việc giảm tỷ lệ dương tính giả hơn là bắt được phần lớn bot

Cấu trúc kinh tế dễ bị phát hiện

Các nhà phát triển bot muốn scraping quy mô lớn thường đặt trình duyệt vào container Docker rồi orchestration bằng Docker Swarm hoặc Kubernetes
Những bot như vậy thường được host trên các nhà cung cấp cloud như Hetzner, AWS, DigitalOcean
Kiến trúc này rất khác môi trường của người dùng thật
- Việc người dùng bình thường duyệt Instagram trong container Docker trên một Hetzner VPS là tình huống không tự nhiên
Đưa ra hai quy tắc để scraping thành công
- Quy tắc quan trọng thứ hai: đừng nói dối về cấu hình trình duyệt
- Quy tắc quan trọng nhất: chỉ nói dối về cấu hình trình duyệt khi sẽ không bị phát hiện

Trang trại thiết bị Android thật

Vì khó reverse engineering các thư viện fingerprint chống bot đã bị obfuscate, tác giả đề xuất cách tiếp cận dùng thiết bị thật để scraping
Kiến trúc giả định là mua 500 thiết bị Android giá rẻ và trộn thiết bị từ khoảng 5 nhà sản xuất để đa dạng fingerprint
- Thiết bị Android giá rẻ bắt đầu từ 58 USD mỗi chiếc
- Cho rằng nếu mua 100 chiếc một lần có thể nhận được chiết khấu lớn
Gắn cho mỗi thiết bị một gói dữ liệu rẻ và điều khiển bằng DeviceFarmer/stf
Ý tưởng là đặt mỗi nơi 100 thiết bị tại 5 thành phố lớn như London, Paris, Boston, Frankfurt, Los Angeles, và thuê không gian lưu trữ giá rẻ gần ăng-ten di động
Cài Android Go nhẹ lên thiết bị, loại bỏ các thành phần không cần thiết rồi cắm nguồn
Nếu bật rồi tắt chế độ máy bay mỗi 5 phút, có thể nhận IP mới thông qua 4G Carrier Grade NAT
Địa chỉ IP di động được tối đa hàng trăm nghìn người dùng hợp lệ ở các đô thị lớn chia sẻ, nên trên thực tế rất khó chặn
- Ví dụ, cho rằng Instagram sẽ không chặn 200.000 người ở LA chỉ vì một số người dùng spam
- Trích dẫn tài liệu của Ofcom nói rằng nếu một địa chỉ IPv4 trong CGN bị chặn, toàn bộ cơ sở thuê bao có thể bị ảnh hưởng
Với IPv6, không gian địa chỉ quá rộng nên hầu hết các hãng chống bot gần như không gán, hoặc không hề gán, uy tín IP cho địa chỉ IPv6

Điểm có thể bị phát hiện và gánh nặng vận hành của kiến trúc thiết bị thật

Nếu để thiết bị thật nằm trên sàn cả ngày, trạng thái không xoay hoặc không chuyển động sẽ kéo dài, nên cần spoof các sự kiện JavaScript deviceorientation và devicemotion ở cấp kernel
- Website có thể truy cập dữ liệu xoay và gia tốc của Android mà không cần xin quyền
Ngoài vấn đề này, tác giả cho rằng chưa rõ hệ thống phát hiện bot có thể chặn kiến trúc đó bằng cách nào
Gánh nặng vận hành không nhỏ
- Phải mua 500 thiết bị Android
- Phải thuê không gian lưu trữ ở các thành phố lớn và tốn chi phí
- Cần người sửa sự cố trang trại thiết bị ở 5 thành phố
- Phải xử lý phần cứng và các vấn đề có thể liên tục phát sinh
Kiến trúc như vậy trở thành một dự án lớn, và chi phí bảo trì có thể lên tới hàng nghìn USD

Android emulator như một phương án thay thế

Cho rằng dùng Android emulator thay cho thiết bị Android thật có lẽ tốt hơn
Có thể giảm chi phí, nhưng các hãng chống bot có thể phát hiện môi trường mô phỏng
Có nhiều cách phát hiện có thể xảy ra
- Red pill dựa trên trình duyệt có thể làm lộ việc trình duyệt đang chạy trong môi trường mô phỏng
- Quét cổng dựa trên trình duyệt có thể tìm các cổng hoặc dịch vụ như adb chỉ chạy trên thiết bị Android được mô phỏng
- Google có thể đặt ID quảng cáo trên toàn bộ thiết bị di động; nếu ID này không có hoặc luôn giống nhau thì có thể là tín hiệu đáng ngờ
- Social Media Login Detection có thể kiểm tra trạng thái đăng nhập tài khoản Gmail hoặc YouTube; trên Android, nếu không đăng nhập tài khoản Google thì có thể bị xem là đáng ngờ
- Ngoài ra có thể còn nhiều kỹ thuật phát hiện thiết bị Android được mô phỏng khác
Android emulator có khả năng cao là không hoàn hảo, và sự không hoàn hảo đó có thể lộ ra qua lượng JavaScript API khổng lồ của trình duyệt di động
Dù vậy, tác giả vẫn ưu tiên cách tiếp cận mô phỏng và đề xuất cấu hình kết nối vài server mạnh với các 4G dongle
proxidize.com cung cấp proxy di động 4G, nhưng vì bản thân proxy cũng có thể bị phát hiện, tác giả muốn dùng trực tiếp 4G dongle trong Android emulator
Kiến trúc cuối cùng là dạng các trạm scraping theo khu vực
- Lắp đặt 1 server scraping mạnh, kết nối 50 4G dongle, tại một vị trí địa lý
- Chạy 50–100 thiết bị Android được mô phỏng trên mỗi server
- Bố trí các trạm như vậy ở 5 thành phố lớn
- Một server command-and-control đơn giản sẽ orchestration 5 trạm scraping

1 bình luận

GN⁺ 2024-04-28

Ý kiến trên Hacker News

Là một luật sư làm trong lĩnh vực web scraping, tôi luôn bật cười khi thấy những luồng thảo luận như thế này. Gần như mọi công ty hoặc công ty con mà hiện nay chúng ta xem là độc quyền trong lĩnh vực công nghệ đều đã dùng scraping trong quá trình mở rộng kinh doanh, và giờ chính những công ty đó lại cấm startup và đối thủ cạnh tranh scrape dữ liệu của họ
Trong phần lớn trường hợp, dữ liệu đó cũng không thực sự là dữ liệu “của họ” theo nghĩa có thể được pháp luật công nhận. Vì vậy đạo đức của web scraping cũng như các vấn đề pháp lý liên quan không hề đơn giản như vậy. Mùa thu năm ngoái tôi có viết về chuyện này và bài đó cũng được quan tâm ở đây: https://news.ycombinator.com/item?id=37264676
- Facebook và thông tin định danh cũng tương tự. Nếu tôi nhớ không nhầm, thời kỳ đầu Facebook đã tăng trưởng bằng cách tận dụng Google Contacts, nhưng lại rất quyết liệt ngăn chặn bất kỳ ai muốn lưu trữ dài hạn dữ liệu social graph của Facebook để dùng bên ngoài khu vườn rào kín của họ
  Rốt cuộc, họ đang ngăn người khác dùng chính những thủ thuật mà họ từng dùng để tăng trưởng
- Đạo đức của web scraping thì trái lại có vẻ rất đơn giản. Chỉ cần mức “bạn có thể phản hồi HTTP request của tôi theo cách bạn muốn, và tôi có thể diễn giải phản hồi đó theo cách tôi muốn” là đủ
  Tôi nghĩ từ khi con người bắt đầu giao tiếp, đối thoại vẫn luôn diễn ra kiểu như vậy. Ngược lại, các vấn đề pháp lý trông giống như một tấm vải được dệt ra để bảo vệ những doanh nghiệp đã có chỗ đứng bằng mối đe dọa bạo lực nhà nước; chẳng mới mẻ gì, đáng buồn nhưng cũng dễ đoán. Rộng hơn, nỗ lực đóng gói chuyện này thành vấn đề quyền sở hữu trí tuệ rồi gắn với việc bảo vệ nghệ sĩ và nhà sáng tạo cũng rất gượng gạo về mặt logic, khiến người ta phải nhăn mặt
Trước đây tôi từng là web scraper chuyên nghiệp và hiện vẫn theo dõi sát diễn biến trong ngành. Ngày nay, người ta không kiếm tiền bằng chính web scraping nữa, mà kiếm tiền bằng cách bán dịch vụ cho các web scraper
Có rất nhiều web scraping SaaS và dịch vụ liên quan, cùng hàng chục nhà cung cấp proxy dân cư. Phần lớn cơ chế chống bot tiến hóa quá nhanh đến mức ngay cả trong các vai trò kỹ thuật phần mềm truyền thống, chỉ cần chuyên làm kỹ thuật vượt chống bot cũng có thể kiếm thu nhập khá tốt. Vì tốc độ thay đổi này, làm việc tại một công ty web scraping ổn định hơn so với lấy web scraping làm nghề tự do. Scraper thường được trả theo dự án nên về lâu dài thiếu ổn định; scraping cao cấp cần đầu tư vận hành như proxy dân cư và thuê máy chủ; còn các việc giá rẻ thì thù lao rất thấp. Chỉ riêng việc Brightdata tổ chức hội nghị web scraping cũng cho thấy việc bán dịch vụ scraping quy mô lớn sinh lợi đến mức nào
- Từ lâu tôi đã nghĩ proxy dân cư là thứ thiết yếu cho scraping hoặc vận hành mạng bot quy mô lớn, nhưng chưa từng trực tiếp dùng nên không kiểm chứng được chúng được dùng thế nào ở quy mô thực tế
  Tôi tò mò liệu các thiết bị IoT bảo mật yếu hoặc phần cứng tiêu dùng nhiễm malware có thường được dùng cho mục đích này không. Cách hợp tác với ISP để có IP dân cư dường như không sinh lời hoặc không khả thi, nên nếu là dịch vụ proxy dân cư thì có vẻ chỉ còn những cách khá kín đáo
- Nếu có hội nghị nào gần nhất với lĩnh vực scraping nói chung, tôi rất muốn được giới thiệu. Theo tôi biết gần như không có hội nghị chuyên về scraping hay cộng đồng mạnh, nên tôi muốn học hỏi và nâng cao kỹ năng
- Tôi đã viết scraper trên Upwork trong nhiều năm, nhưng đã mệt mỏi với công việc theo dự án và muốn làm cho một scraping SaaS hoặc tự bắt đầu một cái. Rất mong nhận lời khuyên
- Ban đầu tôi không biết chuyện này dễ đến vậy nên đã công khai mã nguồn mở. Tôi tránh GitHub vì nghĩ những nơi như Akamai sẽ gửi DMCA rất nhanh, và tận dụng khác biệt về thẩm quyền pháp lý để đưa lên Gitee, một thứ tương tự GitHub phiên bản Trung Quốc
  Tôi không có nền tảng trong lĩnh vực này, nhưng ghép nối những gì các công ty khoe ra thì không khó, và tôi cũng có mục đích thực tế là tự động hóa cá cược thể thao. Công việc chính ngoài đời của tôi cũng gần với mảng đó, và việc này giúp tôi học lập trình nhanh ở cuối tuổi 20. Nhưng gần như ngay lập tức, yêu cầu đổ về từ các nhà vận hành sneaker bot ở Trung Quốc và từ những người dùng thứ tiếng Anh kỳ lạ, có vẻ không phải người bản ngữ. Tôi gỡ mã xuống không phải vì đe dọa pháp lý, mà vì không muốn làm hỗ trợ khách hàng hay làm dưới trướng người khác; phần lớn yêu cầu đều kiểu “anh làm, rồi ta chia lợi nhuận”, khiến tôi khó tin là có ai lại chấp nhận đề nghị như vậy. Internet là mãi mãi, nên có thể một phần đoạn mã bắt chước Cyberfed-Akamai 0.8~2.3 vẫn còn trôi nổi đâu đó. Nếu một người học lập trình ở giữa độ tuổi 20 và trong vòng 3 năm đã đưa lên được đoạn mã có tác dụng, thì các công ty an ninh mạng thu phí đắt cho những sản phẩm như vậy nên thấy xấu hổ. Tôi cũng không học toán sau lớp 10, và do ADHD nên không thể xem video hay đọc bài viết lâu; tất cả những gì tôi làm là chép từ GitHub và các dịch vụ tương tự rồi học cho đến khi nó chạy được. Tôi đoán trong ngành này có lẽ đang bán rất nhiều giải pháp kiểu dầu rắn
- Tôi tò mò bạn đang theo dõi diễn biến trong ngành bằng cách nào
Tôi có cảm giác lẫn lộn về vấn đề này. Công nghệ chống bot đang ngày càng trở thành một điểm đau lớn trong nghiên cứu bảo mật, và vì làm trong lĩnh vực này nên tôi phải đối phó với các hệ thống như vậy
Các tác nhân đe dọa dùng những dịch vụ như Cloudflare để chặn truy cập vào payload độc hại. Đây là vấn đề lớn đối với khách hàng muốn tìm và phát hiện giả mạo thương hiệu hoặc phishing thông tin đăng nhập, nhưng Cloudflare thì hoàn toàn không giúp gì và đơn giản là không quan tâm
- Đồng ý. Việc các tác nhân đe dọa có thể tạo tài khoản Cloudflare miễn phí và giấu một trang phishing trên tên miền mới tạo được 2 giờ sau lớp bảo vệ được hậu thuẫn bởi một công ty 20 tỷ USD đã khiến việc né phát hiện trở nên quá dễ
  Điều thú vị là hầu như không thấy phishing đứng sau Akamai. Chúng tôi cũng làm trong lĩnh vực này, nên có lợi ích liên quan trong việc tiếp tục có thể phát hiện các mối đe dọa như vậy
- Cuối cùng có lẽ chúng ta sẽ đi đến một dạng cơ chế thanh toán vi mô nào đó để giải quyết vấn đề này
Cách gọi “người không thích nghi” và “người bình thường” nghe thật kỳ lạ. Lý do người ta làm những việc này là vì nó thú vị và vui hơn nhiều so với việc làm trang web React nhàm chán cho doanh nghiệp lần thứ hai mươi
Nó vui vì phải giải quyết các vấn đề trong thế giới thực và tìm cách mới để làm một việc gì đó. Phát triển exploit cũng vậy. Những người này không phải là người không thích nghi, mà là những người bình thường đang làm việc họ đam mê. Chính lối nghĩ “người làm việc tôi ghét là kẻ không thích nghi” mới hoàn toàn kỳ quặc
- Cả đoạn đó là trò đùa. Đó là lý do ở cuối có một cái nháy mắt nhỏ
Công nghệ chống bot trông cũng giống như một mối đe dọa bảo mật và mối đe dọa quyền riêng tư. Vì nếu dùng máy ảo thì chúng chặn truy cập trang, hoặc quét cổng, hoặc thực hiện nhiều dạng fingerprinting
- Tôi thích cách dùng bài toán thuật toán buộc khách truy cập mới tiêu tốn CPU hơn
  Quy trình rõ ràng, không có rủi ro quyền riêng tư hay thủ thuật kỳ quặc, và nếu thất bại thì cũng thất bại theo cách mà con người ít nhất có thể nhìn thấy và báo cáo. Tốt hơn là trông như một lỗi không rõ nguyên nhân
Khi đó cũng đã được thảo luận: Scrape like the big boys - https://news.ycombinator.com/item?id=29117022 - tháng 11 năm 2021, 189 bình luận
“Mọi website đều có thể truy cập dữ liệu xoay và tốc độ của Android mà không cần yêu cầu quyền” ư? Chuyện này thật vô lý
Thú vị đấy. Hiện tôi đang xây dựng một dự án cần scraping với tần suất thấp
Tôi đang băn khoăn cách xử lý khi bị từ chối, và có lẽ một thiết bị Android giá rẻ có thể lấp chỗ trống đó

Nếu muốn web scraping như các tập đoàn lớn (2021)

Kiến trúc scraping quy mô lớn xây bằng AWS Lambda

Vì sao bot trên cloud bị chặn

Cấu trúc kinh tế dễ bị phát hiện

Trang trại thiết bị Android thật

Điểm có thể bị phát hiện và gánh nặng vận hành của kiến trúc thiết bị thật

Android emulator như một phương án thay thế

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News