- Drew DeVault (nhà sáng lập SourceHut) cảnh báo rằng các AI crawler phớt lờ robots.txt và gây ra sự cố nghiêm trọng cho SourceHut
- Hạ tầng GitLab của KDE cũng rơi vào tình trạng không thể truy cập do các đợt tấn công từ AI crawler phát sinh trong dải IP của Alibaba
- Các vấn đề của AI crawler
- AI crawler phớt lờ các yêu cầu của robots.txt
- Thu thập toàn bộ các trang và commit của git blame, git log
- Phát sinh yêu cầu từ User-Agent ngẫu nhiên và hàng chục nghìn IP → ngụy trang thành lưu lượng người dùng thông thường
- Khó chặn crawler → các công việc ưu tiên cao bị trì hoãn hàng tuần hoặc hàng tháng
- Phàn nàn của quản trị viên hệ thống
- Vấn đề AI crawler không phải là trường hợp cá biệt mà là vấn đề trên diện rộng
- Nhiều quản trị viên hệ thống đang gặp cùng một vấn đề
- OpenAI và Anthropic đặt User-Agent chính xác, nhưng các công ty AI Trung Quốc thì không
- Phản ứng của KDE GitLab
- Chặn bot giả dạng MS Edge → giải pháp tạm thời
- GNOME áp dụng giới hạn tốc độ xem merge request và commit cho người dùng chưa đăng nhập
- Triển khai Anubis → chỉ cho phép truy cập sau khi trình duyệt giải thử thách
- Vấn đề của Anubis
- Cũng ảnh hưởng đến người dùng → cần thời gian để giải thử thách
- Khi liên kết được chia sẻ trong phòng chat sẽ gây quá tải → phát sinh thời gian chờ 1~2 phút
- 97% lưu lượng là bot
- Tại GNOME, trong 2 tiếng rưỡi phát sinh 81.000 yêu cầu → 97% là AI crawler
- Một số dự án giảm được 75% lưu lượng sau khi chặn AI crawler
- Vấn đề của các dự án FOSS khác
- Fedora → chặn toàn bộ IP của Brazil để ngăn crawler
- Inkscape → crawler giả mạo thông tin trình duyệt → chặn IP trên diện rộng
- Frama Software → tạo danh sách chặn 460.000 IP
- Các dự án ứng phó AI crawler
- ai.robots.txt → cung cấp danh sách mở để chặn AI crawler
- Cấu hình file robots.txt và .htaccess → trả về trang lỗi khi có yêu cầu từ AI crawler
- Kết quả phân tích lưu lượng
- Trường hợp của Diaspora, 70% lưu lượng là AI crawler
- User-Agent của OpenAI: 25%
- Amazon: 15%
- Anthropic: 4.3%
- Tỷ trọng lưu lượng của crawler Google và Bing là dưới 1%
- Vấn đề báo cáo lỗi do AI tạo ra
- Dự án Curl gặp vấn đề với báo cáo lỗi do AI tạo ra
- Phần lớn lỗi được báo cáo thực chất là vấn đề ảo giác (hallucination)
- CPython, pip, urllib3, Requests → tốn thời gian xử lý báo cáo bảo mật do AI tạo ra
- Độ tin cậy thấp → nhưng vẫn cần xác minh → làm tăng gánh nặng cho maintainer
Kết luận
- AI crawler và các báo cáo lỗi do AI tạo ra đang tạo gánh nặng lớn cho cộng đồng mã nguồn mở
- Các dự án mã nguồn mở có ít tài nguyên hơn sản phẩm thương mại và vận hành dựa trên cộng đồng, nên dễ bị tổn thương hơn trước những vấn đề này
1 bình luận
Ý kiến trên Hacker News
Nhiều người đang vận hành hạ tầng Internet quy mô lớn cũng đang gặp trải nghiệm tương tự
Fastly đang cung cấp dịch vụ bảo mật miễn phí cho các dự án FOSS
Thật bất ngờ khi dự án của mình xuất hiện trong hình ảnh xem trước
Không chỉ hạ tầng FOSS mà bản thân việc truy cập Internet ẩn danh cũng đang bị đe dọa
Một instance Forgejo gần đây đã bị tấn công
DISABLE_DOWNLOAD_SOURCE_ARCHIVESthành trueTrước đây
robots.txtđược tạo ra để giải quyết vấn đề với công cụ tìm kiếm, nhưng hiện nay các indexer mới đang phớt lờ nóSự thống trị web của Google và quảng cáo sẽ suy yếu
Họ dùng LLaMa để tạo ra các bài đăng mâu thuẫn nhằm gây nhiễu thông tin
VideoLAN cũng đang bị bot từ các công ty AI tấn công vào diễn đàn và Gitlab
robots.txtCó khả năng sẽ xuất hiện một phần web không được các công cụ tìm kiếm index