Các công ty AI đang tạo ra phần lớn lưu lượng web

(pod.geraspora.de)

14 điểm bởi GN⁺ 2024-12-31 | 1 bình luận | Chia sẻ qua WhatsApp

Kết quả phân tích vấn đề tăng đột biến tải và chậm lại trên hạ tầng web của dự án diaspora (Discourse, Wiki, website dự án, v.v.) cho thấy phần lớn lưu lượng đang được tạo ra bởi các bot thu thập dữ liệu của LLM
Trong 60 ngày qua đã có 11,3 triệu request (trung bình 2,19 req/s), trong đó hơn 70% đến từ các bot crawler liên quan đến LLM
- GPTBot/1.2: 24,6% (2,78 triệu request)
- Amazonbot/0.1: 14,9% (1,69 triệu request)
- ClaudeBot/1.0: 4,3% (490 nghìn request)
- meta-externalagent/1.1: 2,2% (220 nghìn request)
Các mẫu crawling bất thường
- Crawling lặp lại: thu thập cùng một trang theo chu kỳ 6 giờ một lần
- Bỏ qua robots.txt: hoàn toàn không tuân thủ các quy tắc hạn chế crawling
- Crawling kém hiệu quả: thu thập hàng loạt dữ liệu vô nghĩa (ví dụ: toàn bộ lịch sử chỉnh sửa của Wiki)
- Tăng tải đột biến: tại một số thời điểm tạo ra hơn 10 req/s, khiến cơ sở dữ liệu và máy chủ MediaWiki bị quá tải
Cũng không thể phòng vệ hiệu quả
- Thay đổi IP: liên tục đổi IP để vượt qua rate limit
- Thay đổi chuỗi UA: đổi User Agent của bot thành chuỗi tùy ý để né chặn
Các crawler của công cụ tìm kiếm truyền thống như Googlebot và Bingbot cho thấy mẫu crawling bình thường và hiệu quả.
- Googlebot: 0,14% (16.600 request)
- Bingbot: 0,14% (15.900 request)
Giảm thiểu crawling trùng lặp, tuân thủ quy tắc robots.txt

Kết quả và tác động

Không thể cung cấp dịch vụ hiệu quả: bot crawler LLM khiến trải nghiệm của người dùng thật bị suy giảm nghiêm trọng
Máy chủ quá tải: máy chủ cơ sở dữ liệu và MediaWiki liên tục gặp các đợt tăng tải đột biến
Về thực chất là DDoS trên toàn bộ Internet: cách crawling này gây lãng phí tài nguyên không cần thiết trên quy mô toàn cầu

Kết luận

Do các mẫu lưu lượng bất thường của bot crawler LLM, hạ tầng đang liên tục phải gánh áp lực, và các nỗ lực phòng vệ chống lại điều này không phát huy hiệu quả
Vấn đề này không chỉ dừng ở sự mệt mỏi cá nhân mà còn đang gây ảnh hưởng nghiêm trọng đến toàn bộ hệ sinh thái Internet

1 bình luận

GN⁺ 2024-12-31

Ý kiến trên Hacker News

Chia sẻ trải nghiệm bot AI của Meta crawl website quá mức khiến máy chủ bị sập. Giải thích cách chặn việc này bằng Cloudflare
- Đề cập rằng tính năng chặn bot AI của Cloudflare rất hữu ích
- Cho rằng việc bot AI truy cập nội dung là không có giá trị
Chia sẻ dữ liệu lưu lượng bot phát sinh trên nhiều nền tảng khác nhau
- Bot của Claude, Amazon, Data For SEO, Chat GPT và các bên khác tạo ra rất nhiều lưu lượng
- Giải thích rằng những bot này phớt lờ robots.txt hoặc không back off ngay cả khi xảy ra độ trễ
Thảo luận về cách chặn bot
- Giải thích hành vi của bot khi đổi IP hoặc chuyển sang User Agent không phải bot
- Chia sẻ liên kết GitHub công bố dải IP của OpenAI
- Đề xuất dùng plugin WordPress để chặn bot AI
Nhắc đến trường hợp diễn đàn CGTalk đóng cửa vì vấn đề tài nguyên
- Nhiều diễn đàn chuyển sang Slack, Discord để giảm gánh nặng vận hành máy chủ
Cho rằng các công ty AI cần scraping thông minh hơn
- Nhắc rằng hành vi của các công ty AI là điều đáng xấu hổ
Bày tỏ sự tò mò về tấn công poisoning
- Khám phá khả năng gây nhiễu mô hình AI bằng nội dung sai do con người viết
Chia sẻ trải nghiệm ứng dụng triển khai trên GCP bị tăng chi phí vì lưu lượng bot
- Phỏng đoán nguyên nhân là do đã chia sẻ ứng dụng lên Reddit
Chia sẻ trải nghiệm crawl các diễn đàn lớn
- Nhắc rằng ChatGPT hiểu rất rõ về lịch sử của diễn đàn
- Đề xuất ý tưởng thêm văn bản có thể ảnh hưởng đến các LLM
Cho rằng hành vi của bot phớt lờ robots.txt và gây tác động xấu đến dịch vụ có thể bị xem là bất hợp pháp
- Khuyến nghị liên hệ cơ quan thực thi pháp luật an ninh mạng tại địa phương

Các công ty AI đang tạo ra phần lớn lưu lượng web

Kết quả và tác động

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News