- Crawler AI đang gây ra lưu lượng quá mức lên các website dự án mã nguồn mở, đến mức thực tế tạo ra thiệt hại tương đương tê liệt dịch vụ
- Các crawler AI né tránh các cơ chế phòng vệ hiện có bằng cách phớt lờ
robots.txt, giả mạo User-Agent và vượt qua IP theo khu vực cư trú
- Để ngăn chặn điều này, nhà phát triển Xe Iaso đã chuyển máy chủ ra sau VPN và triển khai một hệ thống dựa trên bằng chứng có tên 'Anubis', yêu cầu người dùng giải câu đố mới có thể truy cập
- Theo LibreNews, trong trường hợp của một số dự án, 97% tổng lưu lượng đến từ crawler AI
- Các dự án nổi tiếng như Fedora, GNOME và KDE cũng đang đối phó bằng cách chặn theo quốc gia, áp dụng Anubis hoặc tạm thời đóng dịch vụ
Các trường hợp thiệt hại thực tế và việc crawler AI truy cập bừa bãi
- Trên GitLab của GNOME, chỉ 3,2% trong số 84.056 lượt truy cập vượt qua được Anubis → phần lớn được cho là crawling bất thường
- KDE từng bị lưu lượng từ IP Alibaba khiến hạ tầng GitLab tạm thời tê liệt
- Một số người dùng di động thậm chí mất hơn 2 phút để tải câu đố
- Dennis Schubert, người phụ trách duy trì hạ tầng Diaspora, gọi lưu lượng từ crawler AI là "một cuộc DDoS nhằm vào toàn bộ Internet"
- Read the Docs sau khi chặn crawler AI đã giảm lưu lượng từ 800GB/ngày xuống 200GB/ngày, tiết kiệm khoảng $1.500 mỗi tháng
Gánh nặng mất cân đối dồn lên các dự án mã nguồn mở
- Mã nguồn mở vận hành với nguồn lực hạn chế và dựa trên mô hình cộng tác công khai
- Nhiều crawler phớt lờ
robots.txt, giả mạo User-Agent và liên tục thay đổi IP để truy cập
- Martin Owens của Inkscape cho biết ông phải duy trì một danh sách chặn quy mô lớn vì các công ty AI giả mạo thông tin trình duyệt
- Trên Hacker News, sự phẫn nộ đang lan rộng trước tiềm lực tài chính và thái độ thiếu hợp tác của các công ty AI
- Drew DeVault của SourceHut cho biết crawler truy cập cả mọi trang log git lẫn từng commit, gây tiêu tốn tài nguyên quá mức
- Dự án Curl cũng báo cáo trường hợp nhận được bug report giả do AI tạo ra
Mục đích của crawler AI và cách hành xử khác nhau giữa các công ty
- Crawler AI phục vụ nhiều mục đích khác nhau, như thu thập dữ liệu huấn luyện hoặc tìm kiếm thời gian thực để tạo câu trả lời AI
- Phân tích của Diaspora cho thấy: OpenAI chiếm 25%, Amazon 15%, Anthropic 4,3% lưu lượng
- Crawler định kỳ thu thập lại cùng một trang theo chu kỳ lặp lại, ví dụ mỗi 6 giờ
- OpenAI và Anthropic tương đối dùng User-Agent bình thường, trong khi một số công ty AI Trung Quốc có mức độ ngụy trang cao hơn
- Amazon và Alibaba cũng xuất hiện trong các trường hợp gây thiệt hại, nhưng các công ty này hiện vẫn chưa có lập trường chính thức
Các biện pháp đối phó: Tarpit, câu đố, phương án hợp tác...
- Một công cụ tên "Nepenthes" là biện pháp phòng vệ chủ động, khiến crawler AI mắc kẹt trong mê cung nội dung giả vô tận
- Tác giả Aaron cho rằng công cụ này làm tăng chi phí của crawler và dẫn tới làm ô nhiễm dữ liệu huấn luyện
- Cloudflare đã công bố 'AI Labyrinth' như một tính năng bảo mật thương mại, dẫn dụ crawler khám phá các trang vô nghĩa
- Mỗi ngày có hơn 50 tỷ yêu cầu crawling AI xuất hiện trên mạng lưới Cloudflare
- Dự án mã nguồn mở "ai.robots.txt" cung cấp danh sách crawler AI cùng các tệp robots.txt / .htaccess để chặn chúng
Việc thu thập dữ liệu AI kéo dài và khủng hoảng của web mở
- Các công ty AI tiếp tục thu thập dữ liệu khổng lồ mà không có quy định đang tạo ra mối đe dọa nghiêm trọng với hạ tầng mã nguồn mở
- Đã xuất hiện chỉ trích rằng AI đang tự phá hủy hệ sinh thái số mà chính nó phụ thuộc vào
- Một cơ chế thu thập dữ liệu mang tính hợp tác có thể là giải pháp thay thế, nhưng các công ty AI lớn lại thiếu thiện chí hợp tác tự nguyện
- Nếu không có quy định đủ ý nghĩa hoặc ý thức trách nhiệm tự thân, xung đột giữa AI và mã nguồn mở có khả năng sẽ còn trầm trọng hơn
1 bình luận
Ý kiến Hacker News
Mục tiêu là khiến bot thu được giá trị hữu ích âm từ việc truy cập website. Cách này hiệu quả hơn là chỉ chặn đơn thuần
robots.txt, hãy phục vụ một bài viết về lợi ích của việc uống thuốc tẩyKhông rõ vì sao các công ty không áp dụng cách tiếp cận hợp tác hơn. Ít nhất họ nên giới hạn tốc độ thu thập dữ liệu để không làm quá tải website nguồn
Tôi nghĩ nên áp dụng micropayment để truy cập tài nguyên. Trả cho máy chủ một khoản rất nhỏ thì nó mới trả về nội dung. Nếu crawler chiếm phần lớn lưu lượng thì chúng sẽ phải trả chi phí tương ứng
Khi tôi mở sugaku.net cho phép dùng mà không cần đăng nhập, crawler lập tức hoạt động rất nhanh. Tôi muốn site có thể truy cập với mọi người, nhưng cuối cùng phải giới hạn phần lớn tính năng động cho người dùng đã đăng nhập. Tôi đã siết
robots.txtvà dùng Cloudflare để chặn AI crawler cùng bot xấu, nhưng vẫn nhận khoảng 1 triệu yêu cầu tự động mỗi ngày. Có lẽ sớm muộn tôi cũng phải giới hạn site chỉ cho người dùng đăng nhậpGần đây tôi bắt đầu một side project theo kiểu “code everything in prod”. Tôi đã làm kiểu này nhiều lần trong 20 năm qua, nhưng lần này khác. Tôi chưa hề quảng bá hostname ở đâu cả, vậy mà chưa đầy 24 giờ đã có hàng loạt form spam được gửi tới. Tôi có nghĩ chuyện này sẽ xảy ra sau một đợt quảng bá nhỏ, nhưng không ngờ bot lại bắt đầu tương tác ngay khi máy chủ vừa chạy
Vấn đề không phải là ngăn người khác dùng Lynx hay curl để sao chép file, mà là ngăn máy chủ bị quá tải do phần mềm hoạt động sai cách
Tôi từng bị ClaudeBot (Anthropic) DoS. Nó đánh vào website 700.000 lần mỗi tháng và vượt quá giới hạn băng thông của nhà cung cấp hosting. Việc chặn user agent và làm việc với bộ phận hỗ trợ của nhà cung cấp để gỡ giới hạn rất phiền phức
Các biện pháp “chống bot” thiên về JS chỉ càng củng cố thế độc quyền của trình duyệt. Thay vào đó, tôi khuyến nghị một form HTML đơn giản đặt câu hỏi mà LLM hiện vẫn chưa giải được hoặc hay trả lời sai. Câu hỏi càng liên quan đến nội dung của site càng tốt. Trên một diễn đàn điện tử, tôi từng dùng các câu hỏi “kiểm tra kỹ thuật” tương tự trong form đăng ký; một số có thể bị LLM giải được, nhưng đây vẫn là CAPTCHA mà chỉ con người mới vượt qua được
Spam website quá mức là hành vi xấu. Nhưng nếu chặn AI crawler thì rốt cuộc bạn sẽ bị thiệt. Hãy đoán xem về lâu dài điều gì sẽ thay thế SEO
Tôi từng vận hành nhiều site nội dung, và trong vài ngày gần đây đã phải đóng một số site vì bot AI quá hung hăng. Có vẻ Alexa là tệ nhất