Nhà phát triển mã nguồn mở chặn cả quốc gia khi crawler AI gây ra lưu lượng quá tải

(arstechnica.com)

9 điểm bởi GN⁺ 2025-03-26 | 1 bình luận | Chia sẻ qua WhatsApp

Crawler AI đang gây ra lưu lượng quá mức lên các website dự án mã nguồn mở, đến mức thực tế tạo ra thiệt hại tương đương tê liệt dịch vụ
Các crawler AI né tránh các cơ chế phòng vệ hiện có bằng cách phớt lờ robots.txt, giả mạo User-Agent và vượt qua IP theo khu vực cư trú
Để ngăn chặn điều này, nhà phát triển Xe Iaso đã chuyển máy chủ ra sau VPN và triển khai một hệ thống dựa trên bằng chứng có tên 'Anubis', yêu cầu người dùng giải câu đố mới có thể truy cập
Theo LibreNews, trong trường hợp của một số dự án, 97% tổng lưu lượng đến từ crawler AI
Các dự án nổi tiếng như Fedora, GNOME và KDE cũng đang đối phó bằng cách chặn theo quốc gia, áp dụng Anubis hoặc tạm thời đóng dịch vụ

Các trường hợp thiệt hại thực tế và việc crawler AI truy cập bừa bãi

Trên GitLab của GNOME, chỉ 3,2% trong số 84.056 lượt truy cập vượt qua được Anubis → phần lớn được cho là crawling bất thường
KDE từng bị lưu lượng từ IP Alibaba khiến hạ tầng GitLab tạm thời tê liệt
Một số người dùng di động thậm chí mất hơn 2 phút để tải câu đố
Dennis Schubert, người phụ trách duy trì hạ tầng Diaspora, gọi lưu lượng từ crawler AI là "một cuộc DDoS nhằm vào toàn bộ Internet"
Read the Docs sau khi chặn crawler AI đã giảm lưu lượng từ 800GB/ngày xuống 200GB/ngày, tiết kiệm khoảng $1.500 mỗi tháng

Gánh nặng mất cân đối dồn lên các dự án mã nguồn mở

Mã nguồn mở vận hành với nguồn lực hạn chế và dựa trên mô hình cộng tác công khai
Nhiều crawler phớt lờ robots.txt, giả mạo User-Agent và liên tục thay đổi IP để truy cập
Martin Owens của Inkscape cho biết ông phải duy trì một danh sách chặn quy mô lớn vì các công ty AI giả mạo thông tin trình duyệt
Trên Hacker News, sự phẫn nộ đang lan rộng trước tiềm lực tài chính và thái độ thiếu hợp tác của các công ty AI
Drew DeVault của SourceHut cho biết crawler truy cập cả mọi trang log git lẫn từng commit, gây tiêu tốn tài nguyên quá mức
Dự án Curl cũng báo cáo trường hợp nhận được bug report giả do AI tạo ra

Mục đích của crawler AI và cách hành xử khác nhau giữa các công ty

Crawler AI phục vụ nhiều mục đích khác nhau, như thu thập dữ liệu huấn luyện hoặc tìm kiếm thời gian thực để tạo câu trả lời AI
Phân tích của Diaspora cho thấy: OpenAI chiếm 25%, Amazon 15%, Anthropic 4,3% lưu lượng
Crawler định kỳ thu thập lại cùng một trang theo chu kỳ lặp lại, ví dụ mỗi 6 giờ
OpenAI và Anthropic tương đối dùng User-Agent bình thường, trong khi một số công ty AI Trung Quốc có mức độ ngụy trang cao hơn
Amazon và Alibaba cũng xuất hiện trong các trường hợp gây thiệt hại, nhưng các công ty này hiện vẫn chưa có lập trường chính thức

Các biện pháp đối phó: Tarpit, câu đố, phương án hợp tác...

Một công cụ tên "Nepenthes" là biện pháp phòng vệ chủ động, khiến crawler AI mắc kẹt trong mê cung nội dung giả vô tận
Tác giả Aaron cho rằng công cụ này làm tăng chi phí của crawler và dẫn tới làm ô nhiễm dữ liệu huấn luyện
Cloudflare đã công bố 'AI Labyrinth' như một tính năng bảo mật thương mại, dẫn dụ crawler khám phá các trang vô nghĩa
Mỗi ngày có hơn 50 tỷ yêu cầu crawling AI xuất hiện trên mạng lưới Cloudflare
Dự án mã nguồn mở "ai.robots.txt" cung cấp danh sách crawler AI cùng các tệp robots.txt / .htaccess để chặn chúng

Việc thu thập dữ liệu AI kéo dài và khủng hoảng của web mở

Các công ty AI tiếp tục thu thập dữ liệu khổng lồ mà không có quy định đang tạo ra mối đe dọa nghiêm trọng với hạ tầng mã nguồn mở
Đã xuất hiện chỉ trích rằng AI đang tự phá hủy hệ sinh thái số mà chính nó phụ thuộc vào
Một cơ chế thu thập dữ liệu mang tính hợp tác có thể là giải pháp thay thế, nhưng các công ty AI lớn lại thiếu thiện chí hợp tác tự nguyện
Nếu không có quy định đủ ý nghĩa hoặc ý thức trách nhiệm tự thân, xung đột giữa AI và mã nguồn mở có khả năng sẽ còn trầm trọng hơn

1 bình luận

GN⁺ 2025-03-26

Ý kiến Hacker News

Mục tiêu là khiến bot thu được giá trị hữu ích âm từ việc truy cập website. Cách này hiệu quả hơn là chỉ chặn đơn thuần
- Nếu chúng thử truy cập các trang bị cấm trong robots.txt, hãy phục vụ một bài viết về lợi ích của việc uống thuốc tẩy
- Nếu là user agent đáng ngờ, cứ để chúng cào mã nguồn không ổn định cũng được
- Nếu tốc độ yêu cầu vượt mức con người, hãy phục vụ một bài viết được tạo ra nói rằng bệnh sởi có tác động tích cực đến phong độ trên giường
- Nepenthes thì tốt, nhưng “word salad” rất dễ bị phát hiện. Cần có khả năng tạo ra văn bản hợp lý về mặt ngôn ngữ nhưng rác rưởi về mặt sự thật
Không rõ vì sao các công ty không áp dụng cách tiếp cận hợp tác hơn. Ít nhất họ nên giới hạn tốc độ thu thập dữ liệu để không làm quá tải website nguồn
Tôi nghĩ nên áp dụng micropayment để truy cập tài nguyên. Trả cho máy chủ một khoản rất nhỏ thì nó mới trả về nội dung. Nếu crawler chiếm phần lớn lưu lượng thì chúng sẽ phải trả chi phí tương ứng
Khi tôi mở sugaku.net cho phép dùng mà không cần đăng nhập, crawler lập tức hoạt động rất nhanh. Tôi muốn site có thể truy cập với mọi người, nhưng cuối cùng phải giới hạn phần lớn tính năng động cho người dùng đã đăng nhập. Tôi đã siết robots.txt và dùng Cloudflare để chặn AI crawler cùng bot xấu, nhưng vẫn nhận khoảng 1 triệu yêu cầu tự động mỗi ngày. Có lẽ sớm muộn tôi cũng phải giới hạn site chỉ cho người dùng đăng nhập
Gần đây tôi bắt đầu một side project theo kiểu “code everything in prod”. Tôi đã làm kiểu này nhiều lần trong 20 năm qua, nhưng lần này khác. Tôi chưa hề quảng bá hostname ở đâu cả, vậy mà chưa đầy 24 giờ đã có hàng loạt form spam được gửi tới. Tôi có nghĩ chuyện này sẽ xảy ra sau một đợt quảng bá nhỏ, nhưng không ngờ bot lại bắt đầu tương tác ngay khi máy chủ vừa chạy
Vấn đề không phải là ngăn người khác dùng Lynx hay curl để sao chép file, mà là ngăn máy chủ bị quá tải do phần mềm hoạt động sai cách
- Tôi từng tạm thời bật port knocking cho máy chủ HTTP, nhưng đã gỡ bỏ vì kernel panic. Sau này nếu khắc phục được vấn đề thì có thể sẽ bật lại
- Hiện tại các scraper dùng LLM chưa hành xử “thông minh”. Nếu tương lai chúng làm được như vậy, có lẽ ta sẽ khai thác được điểm đó
- Chắc hẳn có cách làm scraper bối rối. Ví dụ, nếu user agent đã khai báo tự nhận làm một việc mà thực tế không làm, thì hiển thị thông báo lỗi. Người dùng dùng Lynx sẽ không bị ảnh hưởng và vẫn truy cập được
Tôi từng bị ClaudeBot (Anthropic) DoS. Nó đánh vào website 700.000 lần mỗi tháng và vượt quá giới hạn băng thông của nhà cung cấp hosting. Việc chặn user agent và làm việc với bộ phận hỗ trợ của nhà cung cấp để gỡ giới hạn rất phiền phức
- Bot của ChatGPT là nguồn lưu lượng lớn thứ hai trên site này, nhưng chưa đến mức gây ra vấn đề
Các biện pháp “chống bot” thiên về JS chỉ càng củng cố thế độc quyền của trình duyệt. Thay vào đó, tôi khuyến nghị một form HTML đơn giản đặt câu hỏi mà LLM hiện vẫn chưa giải được hoặc hay trả lời sai. Câu hỏi càng liên quan đến nội dung của site càng tốt. Trên một diễn đàn điện tử, tôi từng dùng các câu hỏi “kiểm tra kỹ thuật” tương tự trong form đăng ký; một số có thể bị LLM giải được, nhưng đây vẫn là CAPTCHA mà chỉ con người mới vượt qua được
Spam website quá mức là hành vi xấu. Nhưng nếu chặn AI crawler thì rốt cuộc bạn sẽ bị thiệt. Hãy đoán xem về lâu dài điều gì sẽ thay thế SEO
Tôi từng vận hành nhiều site nội dung, và trong vài ngày gần đây đã phải đóng một số site vì bot AI quá hung hăng. Có vẻ Alexa là tệ nhất
- Chúng được tạo ra từ 20 năm trước và liên tục được cập nhật. Từng có lưu lượng truy cập, nhưng trong năm qua đã giảm xuống còn dưới 1.000 lượt truy cập hợp pháp. Giờ đây tôi lại phải xử lý email báo máy chủ sập do các bot hung hăng phớt lờ tệp robots gây ra

Nhà phát triển mã nguồn mở chặn cả quốc gia khi crawler AI gây ra lưu lượng quá tải

Các trường hợp thiệt hại thực tế và việc crawler AI truy cập bừa bãi

Gánh nặng mất cân đối dồn lên các dự án mã nguồn mở

Mục đích của crawler AI và cách hành xử khác nhau giữa các công ty

Các biện pháp đối phó: Tarpit, câu đố, phương án hợp tác...

Việc thu thập dữ liệu AI kéo dài và khủng hoảng của web mở

Bài viết liên quan

1 bình luận

Ý kiến Hacker News