1 điểm bởi GN⁺ 2025-03-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Drew DeVault (nhà sáng lập SourceHut) cảnh báo rằng các AI crawler phớt lờ robots.txt và gây ra sự cố nghiêm trọng cho SourceHut
  • Hạ tầng GitLab của KDE cũng rơi vào tình trạng không thể truy cập do các đợt tấn công từ AI crawler phát sinh trong dải IP của Alibaba
  • Các vấn đề của AI crawler
    • AI crawler phớt lờ các yêu cầu của robots.txt
      • Thu thập toàn bộ các trang và commit của git blame, git log
      • Phát sinh yêu cầu từ User-Agent ngẫu nhiên và hàng chục nghìn IP → ngụy trang thành lưu lượng người dùng thông thường
    • Khó chặn crawler → các công việc ưu tiên cao bị trì hoãn hàng tuần hoặc hàng tháng
  • Phàn nàn của quản trị viên hệ thống
    • Vấn đề AI crawler không phải là trường hợp cá biệt mà là vấn đề trên diện rộng
      • Nhiều quản trị viên hệ thống đang gặp cùng một vấn đề
      • OpenAI và Anthropic đặt User-Agent chính xác, nhưng các công ty AI Trung Quốc thì không
  • Phản ứng của KDE GitLab
    • Chặn bot giả dạng MS Edge → giải pháp tạm thời
    • GNOME áp dụng giới hạn tốc độ xem merge request và commit cho người dùng chưa đăng nhập
    • Triển khai Anubis → chỉ cho phép truy cập sau khi trình duyệt giải thử thách
  • Vấn đề của Anubis
    • Cũng ảnh hưởng đến người dùng → cần thời gian để giải thử thách
      • Khi liên kết được chia sẻ trong phòng chat sẽ gây quá tải → phát sinh thời gian chờ 1~2 phút
  • 97% lưu lượng là bot
    • Tại GNOME, trong 2 tiếng rưỡi phát sinh 81.000 yêu cầu97% là AI crawler
    • Một số dự án giảm được 75% lưu lượng sau khi chặn AI crawler
  • Vấn đề của các dự án FOSS khác
    • Fedora → chặn toàn bộ IP của Brazil để ngăn crawler
    • Inkscape → crawler giả mạo thông tin trình duyệt → chặn IP trên diện rộng
    • Frama Software → tạo danh sách chặn 460.000 IP
  • Các dự án ứng phó AI crawler
    • ai.robots.txt → cung cấp danh sách mở để chặn AI crawler
      • Cấu hình file robots.txt và .htaccess → trả về trang lỗi khi có yêu cầu từ AI crawler
  • Kết quả phân tích lưu lượng
    • Trường hợp của Diaspora, 70% lưu lượng là AI crawler
      • User-Agent của OpenAI: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • Tỷ trọng lưu lượng của crawler Google và Bing là dưới 1%
  • Vấn đề báo cáo lỗi do AI tạo ra
    • Dự án Curl gặp vấn đề với báo cáo lỗi do AI tạo ra
      • Phần lớn lỗi được báo cáo thực chất là vấn đề ảo giác (hallucination)
    • CPython, pip, urllib3, Requests → tốn thời gian xử lý báo cáo bảo mật do AI tạo ra
      • Độ tin cậy thấp → nhưng vẫn cần xác minh → làm tăng gánh nặng cho maintainer

Kết luận

  • AI crawler và các báo cáo lỗi do AI tạo ra đang tạo gánh nặng lớn cho cộng đồng mã nguồn mở
  • Các dự án mã nguồn mở có ít tài nguyên hơn sản phẩm thương mại và vận hành dựa trên cộng đồng, nên dễ bị tổn thương hơn trước những vấn đề này

1 bình luận

 
GN⁺ 2025-03-21
Ý kiến trên Hacker News
  • Nhiều người đang vận hành hạ tầng Internet quy mô lớn cũng đang gặp trải nghiệm tương tự

    • Có bài viết tổng hợp các câu chuyện chia sẻ về việc lạm dụng crawler AI và gom các vấn đề này lại một chỗ
    • Một số startup đã giải quyết vấn đề và hoàn tiền chi phí, nhưng Facebook không trả lời email
  • Fastly đang cung cấp dịch vụ bảo mật miễn phí cho các dự án FOSS

    • Gần đây số lượng yêu cầu liên quan đến AI scraping đang tăng lên
  • Thật bất ngờ khi dự án của mình xuất hiện trong hình ảnh xem trước

    • Họ đang triển khai dự án lên xeiaso.net để kiểm tra cách nó hoạt động trong môi trường thực tế
  • Không chỉ hạ tầng FOSS mà bản thân việc truy cập Internet ẩn danh cũng đang bị đe dọa

    • Các bot mới có thể vượt CAPTCHA và hành xử như người dùng thật
    • Các trang web có thể sẽ yêu cầu xác thực như thẻ tín dụng hoặc Worldcoin
  • Một instance Forgejo gần đây đã bị tấn công

    • Ổ đĩa bị lấp đầy bởi các tệp zip được tạo ra, và sau khi chặn dải IP của Alibaba Cloud thì cuộc tấn công giảm xuống
    • Khuyến nghị đổi thiết lập DISABLE_DOWNLOAD_SOURCE_ARCHIVES thành true
  • Trước đây robots.txt được tạo ra để giải quyết vấn đề với công cụ tìm kiếm, nhưng hiện nay các indexer mới đang phớt lờ nó

    • Có ý kiến cho rằng cần có chế tài pháp lý
  • Sự thống trị web của Google và quảng cáo sẽ suy yếu

    • Do CAPTCHA, công cụ tìm kiếm sẽ không thể index các trang web, điều này sẽ làm giảm giá trị của công cụ tìm kiếm
  • Họ dùng LLaMa để tạo ra các bài đăng mâu thuẫn nhằm gây nhiễu thông tin

  • VideoLAN cũng đang bị bot từ các công ty AI tấn công vào diễn đàn và Gitlab

    • Phần lớn bot đều phớt lờ robots.txt
  • Có khả năng sẽ xuất hiện một phần web không được các công cụ tìm kiếm index

    • Một phương án được đề xuất để đối phó với việc scraping cho LLM là yêu cầu proof of work