Các công ty AI đang tạo ra phần lớn lưu lượng web
(pod.geraspora.de)- Kết quả phân tích vấn đề tăng đột biến tải và chậm lại trên hạ tầng web của dự án diaspora (Discourse, Wiki, website dự án, v.v.) cho thấy phần lớn lưu lượng đang được tạo ra bởi các bot thu thập dữ liệu của LLM
- Trong 60 ngày qua đã có 11,3 triệu request (trung bình 2,19 req/s), trong đó hơn 70% đến từ các bot crawler liên quan đến LLM
- GPTBot/1.2: 24,6% (2,78 triệu request)
- Amazonbot/0.1: 14,9% (1,69 triệu request)
- ClaudeBot/1.0: 4,3% (490 nghìn request)
- meta-externalagent/1.1: 2,2% (220 nghìn request)
- Các mẫu crawling bất thường
- Crawling lặp lại: thu thập cùng một trang theo chu kỳ 6 giờ một lần
- Bỏ qua robots.txt: hoàn toàn không tuân thủ các quy tắc hạn chế crawling
- Crawling kém hiệu quả: thu thập hàng loạt dữ liệu vô nghĩa (ví dụ: toàn bộ lịch sử chỉnh sửa của Wiki)
- Tăng tải đột biến: tại một số thời điểm tạo ra hơn 10 req/s, khiến cơ sở dữ liệu và máy chủ MediaWiki bị quá tải
- Cũng không thể phòng vệ hiệu quả
- Thay đổi IP: liên tục đổi IP để vượt qua rate limit
- Thay đổi chuỗi UA: đổi User Agent của bot thành chuỗi tùy ý để né chặn
- Các crawler của công cụ tìm kiếm truyền thống như Googlebot và Bingbot cho thấy mẫu crawling bình thường và hiệu quả.
- Googlebot: 0,14% (16.600 request)
- Bingbot: 0,14% (15.900 request)
- Giảm thiểu crawling trùng lặp, tuân thủ quy tắc robots.txt
Kết quả và tác động
- Không thể cung cấp dịch vụ hiệu quả: bot crawler LLM khiến trải nghiệm của người dùng thật bị suy giảm nghiêm trọng
- Máy chủ quá tải: máy chủ cơ sở dữ liệu và MediaWiki liên tục gặp các đợt tăng tải đột biến
- Về thực chất là DDoS trên toàn bộ Internet: cách crawling này gây lãng phí tài nguyên không cần thiết trên quy mô toàn cầu
Kết luận
- Do các mẫu lưu lượng bất thường của bot crawler LLM, hạ tầng đang liên tục phải gánh áp lực, và các nỗ lực phòng vệ chống lại điều này không phát huy hiệu quả
- Vấn đề này không chỉ dừng ở sự mệt mỏi cá nhân mà còn đang gây ảnh hưởng nghiêm trọng đến toàn bộ hệ sinh thái Internet
1 bình luận
Ý kiến trên Hacker News
Chia sẻ trải nghiệm bot AI của Meta crawl website quá mức khiến máy chủ bị sập. Giải thích cách chặn việc này bằng Cloudflare
Chia sẻ dữ liệu lưu lượng bot phát sinh trên nhiều nền tảng khác nhau
robots.txthoặc không back off ngay cả khi xảy ra độ trễThảo luận về cách chặn bot
Nhắc đến trường hợp diễn đàn CGTalk đóng cửa vì vấn đề tài nguyên
Cho rằng các công ty AI cần scraping thông minh hơn
Bày tỏ sự tò mò về tấn công poisoning
Chia sẻ trải nghiệm ứng dụng triển khai trên GCP bị tăng chi phí vì lưu lượng bot
Chia sẻ trải nghiệm crawl các diễn đàn lớn
Cho rằng hành vi của bot phớt lờ
robots.txtvà gây tác động xấu đến dịch vụ có thể bị xem là bất hợp pháp