1 điểm bởi GN⁺ 2025-01-19 | 1 bình luận | Chia sẻ qua WhatsApp
  • Máy chủ Git của tôi trở nên bất ổn vì crawler AI của Amazon

  • Blog hỗ trợ: Nếu bạn thích blog này, bạn có thể hỗ trợ Xe trên Patreon

  • Đăng ký Patreon: Quảng cáo EthicalAds

  • Cập nhật (2025-01-18 23:50 UTC): Tôi đã viết một proxy thực hiện kiểm tra bằng chứng công việc trước khi cho phép yêu cầu đến máy chủ Gitea. Tên của nó là Anubis, và tôi dự định sớm viết một bài blog về nó. Hiện tại có thể xem tại https://git.xeserv.us/. Nó vẫn còn khá thô, nhưng hoạt động đủ tốt

  • Cập nhật (2025-01-18 19:00 UTC): Tôi bỏ cuộc. Tôi đã chuyển máy chủ Gitea ra sau VPN. Tôi đang làm một reverse proxy bằng chứng công việc để bảo vệ máy chủ khỏi bot. Sẽ sớm đưa nó hoạt động trở lại

  • Cập nhật (2025-01-17 17:50 UTC): Tôi đã thêm đoạn sau vào cấu hình ingress:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    Bot vẫn đang tấn công từ các IP khác. Khoảng 10% yêu cầu không có user-agent amazonbot. Tôi không biết phải làm gì tiếp theo. Tôi ghét tương lai

  • Yêu cầu giúp đỡ: Tôi muốn nhờ ai đang vận hành AmazonBot thêm git.xeserv.us vào danh sách tên miền bị chặn. Nếu bạn biết ai đó ở Amazon, mong bạn chuyển tiếp thông điệp này. Nếu muốn crawl máy chủ Git, xin hãy liên hệ để có thể chi trả mức chi phí tương xứng với việc nâng cấp phần cứng. Tôi không muốn đóng máy chủ Gitea với công chúng, nhưng nếu cần thì tôi sẽ làm vậy. Việc chặn các bot crawler AI là vô nghĩa. Chúng nói dối, đổi user-agent và dùng địa chỉ IP dân dụng làm proxy. Tôi chỉ mong các yêu cầu này dừng lại

  • Tôi đã cấu hình sẵn tệp robots.txt để chặn mọi bot:

    User-agent: *
    Disallow: /
    

    Tôi không biết mình còn phải làm gì nữa

1 bình luận

 
GN⁺ 2025-01-19
Ý kiến Hacker News
  • Có thể thử giải quyết vấn đề bằng cách nhờ luật sư soạn một thư "cease and desist" rõ ràng và gửi cho Amazon

    • Nếu Amazon không dừng lại, có thể thu hút sự chú ý bằng cách nộp đơn tố cáo hình sự
  • Đề xuất cách chặn AI crawler bằng cách thêm các liên kết mà con người sẽ không truy cập vào website và cấm chúng trong robots.txt

    • Nếu một địa chỉ IP truy cập các liên kết đó thì chặn trong 24 giờ
  • Các bot AI và SEO hầu như không tuân thủ robots.txt và rất khó để chặn

    • Nếu AI crawler muốn truy cập thì phải tuân theo quy tắc hoặc trả phí
  • Có khả năng đây là một chủ thể khác giả mạo làm AI crawler của Amazon chứ không phải Amazon

    • Các IP dân dụng xoay vòng và chuỗi user-agent thay đổi là dấu hiệu đáng ngờ
  • Đã xảy ra vấn đề mức sử dụng CPU tăng vọt trên máy chủ cá nhân do AI crawler

    • Đã giảm bớt vấn đề bằng robots.txt và danh sách chặn dựa trên user-agent, nhưng chưa rõ có duy trì hiệu quả hay không
  • Có ý kiến cho rằng thay vì chặn AI crawler, có thể giải quyết vấn đề bằng cách cung cấp nội dung độc hại cho chúng

    • Nếu Amazon phát hiện ra điều đó, họ có thể sẽ chi tiền để giải quyết vấn đề
  • Đặt ra khả năng đây là một cuộc tấn công DDoS giả mạo Amazon

    • Việc các yêu cầu đến từ IP dân dụng là điều đáng ngờ
  • Trang Pinboard cũng bị tăng vọt lưu lượng vì AI crawler nên đã bị sập

    • Không thể chặn theo dải IP nên phải dùng CAPTCHA
  • Có ý kiến mong Amazon cung cấp AWS credit để bù chi phí vượt lưu lượng

    • Hy vọng có thể bù lại bằng doanh thu quảng cáo
  • Trước khi cấu hình Nginx để chặn, Bytespider và Amazonbot chiếm 80% toàn bộ lưu lượng

    • ClaudeBot đã tạo ra lượng truy cập trên Redmine trong một tháng vượt cả 5 năm trước đó