Hạ tầng FOSS đang bị các công ty AI tấn công

(thelibre.news)

1 điểm bởi GN⁺ 2025-03-21 | 1 bình luận | Chia sẻ qua WhatsApp

Drew DeVault (nhà sáng lập SourceHut) cảnh báo rằng các AI crawler phớt lờ robots.txt và gây ra sự cố nghiêm trọng cho SourceHut
Hạ tầng GitLab của KDE cũng rơi vào tình trạng không thể truy cập do các đợt tấn công từ AI crawler phát sinh trong dải IP của Alibaba
Các vấn đề của AI crawler
- AI crawler phớt lờ các yêu cầu của robots.txt
  - Thu thập toàn bộ các trang và commit của git blame, git log
  - Phát sinh yêu cầu từ User-Agent ngẫu nhiên và hàng chục nghìn IP → ngụy trang thành lưu lượng người dùng thông thường
- Khó chặn crawler → các công việc ưu tiên cao bị trì hoãn hàng tuần hoặc hàng tháng
Phàn nàn của quản trị viên hệ thống
- Vấn đề AI crawler không phải là trường hợp cá biệt mà là vấn đề trên diện rộng
  - Nhiều quản trị viên hệ thống đang gặp cùng một vấn đề
  - OpenAI và Anthropic đặt User-Agent chính xác, nhưng các công ty AI Trung Quốc thì không
Phản ứng của KDE GitLab
- Chặn bot giả dạng MS Edge → giải pháp tạm thời
- GNOME áp dụng giới hạn tốc độ xem merge request và commit cho người dùng chưa đăng nhập
- Triển khai Anubis → chỉ cho phép truy cập sau khi trình duyệt giải thử thách
Vấn đề của Anubis
- Cũng ảnh hưởng đến người dùng → cần thời gian để giải thử thách
  - Khi liên kết được chia sẻ trong phòng chat sẽ gây quá tải → phát sinh thời gian chờ 1~2 phút
97% lưu lượng là bot
- Tại GNOME, trong 2 tiếng rưỡi phát sinh 81.000 yêu cầu → 97% là AI crawler
- Một số dự án giảm được 75% lưu lượng sau khi chặn AI crawler
Vấn đề của các dự án FOSS khác
- Fedora → chặn toàn bộ IP của Brazil để ngăn crawler
- Inkscape → crawler giả mạo thông tin trình duyệt → chặn IP trên diện rộng
- Frama Software → tạo danh sách chặn 460.000 IP
Các dự án ứng phó AI crawler
- ai.robots.txt → cung cấp danh sách mở để chặn AI crawler
  - Cấu hình file robots.txt và .htaccess → trả về trang lỗi khi có yêu cầu từ AI crawler
Kết quả phân tích lưu lượng
- Trường hợp của Diaspora, 70% lưu lượng là AI crawler
  - User-Agent của OpenAI: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- Tỷ trọng lưu lượng của crawler Google và Bing là dưới 1%
Vấn đề báo cáo lỗi do AI tạo ra
- Dự án Curl gặp vấn đề với báo cáo lỗi do AI tạo ra
  - Phần lớn lỗi được báo cáo thực chất là vấn đề ảo giác (hallucination)
- CPython, pip, urllib3, Requests → tốn thời gian xử lý báo cáo bảo mật do AI tạo ra
  - Độ tin cậy thấp → nhưng vẫn cần xác minh → làm tăng gánh nặng cho maintainer

Kết luận

AI crawler và các báo cáo lỗi do AI tạo ra đang tạo gánh nặng lớn cho cộng đồng mã nguồn mở
Các dự án mã nguồn mở có ít tài nguyên hơn sản phẩm thương mại và vận hành dựa trên cộng đồng, nên dễ bị tổn thương hơn trước những vấn đề này

1 bình luận

GN⁺ 2025-03-21

Ý kiến trên Hacker News

Nhiều người đang vận hành hạ tầng Internet quy mô lớn cũng đang gặp trải nghiệm tương tự
- Có bài viết tổng hợp các câu chuyện chia sẻ về việc lạm dụng crawler AI và gom các vấn đề này lại một chỗ
- Một số startup đã giải quyết vấn đề và hoàn tiền chi phí, nhưng Facebook không trả lời email
Fastly đang cung cấp dịch vụ bảo mật miễn phí cho các dự án FOSS
- Gần đây số lượng yêu cầu liên quan đến AI scraping đang tăng lên
Thật bất ngờ khi dự án của mình xuất hiện trong hình ảnh xem trước
- Họ đang triển khai dự án lên xeiaso.net để kiểm tra cách nó hoạt động trong môi trường thực tế
Không chỉ hạ tầng FOSS mà bản thân việc truy cập Internet ẩn danh cũng đang bị đe dọa
- Các bot mới có thể vượt CAPTCHA và hành xử như người dùng thật
- Các trang web có thể sẽ yêu cầu xác thực như thẻ tín dụng hoặc Worldcoin
Một instance Forgejo gần đây đã bị tấn công
- Ổ đĩa bị lấp đầy bởi các tệp zip được tạo ra, và sau khi chặn dải IP của Alibaba Cloud thì cuộc tấn công giảm xuống
- Khuyến nghị đổi thiết lập DISABLE_DOWNLOAD_SOURCE_ARCHIVES thành true
Trước đây robots.txt được tạo ra để giải quyết vấn đề với công cụ tìm kiếm, nhưng hiện nay các indexer mới đang phớt lờ nó
- Có ý kiến cho rằng cần có chế tài pháp lý
Sự thống trị web của Google và quảng cáo sẽ suy yếu
- Do CAPTCHA, công cụ tìm kiếm sẽ không thể index các trang web, điều này sẽ làm giảm giá trị của công cụ tìm kiếm
Họ dùng LLaMa để tạo ra các bài đăng mâu thuẫn nhằm gây nhiễu thông tin
VideoLAN cũng đang bị bot từ các công ty AI tấn công vào diễn đàn và Gitlab
- Phần lớn bot đều phớt lờ robots.txt
Có khả năng sẽ xuất hiện một phần web không được các công cụ tìm kiếm index
- Một phương án được đề xuất để đối phó với việc scraping cho LLM là yêu cầu proof of work

Hạ tầng FOSS đang bị các công ty AI tấn công

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News