Máy chủ Git của tôi trở nên bất ổn vì crawler AI của Amazon

(xeiaso.net)

1 điểm bởi GN⁺ 2025-01-19 | 1 bình luận | Chia sẻ qua WhatsApp

Máy chủ Git của tôi trở nên bất ổn vì crawler AI của Amazon
Blog hỗ trợ: Nếu bạn thích blog này, bạn có thể hỗ trợ Xe trên Patreon
Đăng ký Patreon: Quảng cáo EthicalAds
Cập nhật (2025-01-18 23:50 UTC): Tôi đã viết một proxy thực hiện kiểm tra bằng chứng công việc trước khi cho phép yêu cầu đến máy chủ Gitea. Tên của nó là Anubis, và tôi dự định sớm viết một bài blog về nó. Hiện tại có thể xem tại https://git.xeserv.us/. Nó vẫn còn khá thô, nhưng hoạt động đủ tốt
Cập nhật (2025-01-18 19:00 UTC): Tôi bỏ cuộc. Tôi đã chuyển máy chủ Gitea ra sau VPN. Tôi đang làm một reverse proxy bằng chứng công việc để bảo vệ máy chủ khỏi bot. Sẽ sớm đưa nó hoạt động trở lại
Cập nhật (2025-01-17 17:50 UTC): Tôi đã thêm đoạn sau vào cấu hình ingress:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
Bot vẫn đang tấn công từ các IP khác. Khoảng 10% yêu cầu không có user-agent amazonbot. Tôi không biết phải làm gì tiếp theo. Tôi ghét tương lai
Yêu cầu giúp đỡ: Tôi muốn nhờ ai đang vận hành AmazonBot thêm git.xeserv.us vào danh sách tên miền bị chặn. Nếu bạn biết ai đó ở Amazon, mong bạn chuyển tiếp thông điệp này. Nếu muốn crawl máy chủ Git, xin hãy liên hệ để có thể chi trả mức chi phí tương xứng với việc nâng cấp phần cứng. Tôi không muốn đóng máy chủ Gitea với công chúng, nhưng nếu cần thì tôi sẽ làm vậy. Việc chặn các bot crawler AI là vô nghĩa. Chúng nói dối, đổi user-agent và dùng địa chỉ IP dân dụng làm proxy. Tôi chỉ mong các yêu cầu này dừng lại
Tôi đã cấu hình sẵn tệp robots.txt để chặn mọi bot:
```
User-agent: *
Disallow: /
```
Tôi không biết mình còn phải làm gì nữa

1 bình luận

GN⁺ 2025-01-19

Ý kiến Hacker News

Có thể thử giải quyết vấn đề bằng cách nhờ luật sư soạn một thư "cease and desist" rõ ràng và gửi cho Amazon
- Nếu Amazon không dừng lại, có thể thu hút sự chú ý bằng cách nộp đơn tố cáo hình sự
Đề xuất cách chặn AI crawler bằng cách thêm các liên kết mà con người sẽ không truy cập vào website và cấm chúng trong robots.txt
- Nếu một địa chỉ IP truy cập các liên kết đó thì chặn trong 24 giờ
Các bot AI và SEO hầu như không tuân thủ robots.txt và rất khó để chặn
- Nếu AI crawler muốn truy cập thì phải tuân theo quy tắc hoặc trả phí
Có khả năng đây là một chủ thể khác giả mạo làm AI crawler của Amazon chứ không phải Amazon
- Các IP dân dụng xoay vòng và chuỗi user-agent thay đổi là dấu hiệu đáng ngờ
Đã xảy ra vấn đề mức sử dụng CPU tăng vọt trên máy chủ cá nhân do AI crawler
- Đã giảm bớt vấn đề bằng robots.txt và danh sách chặn dựa trên user-agent, nhưng chưa rõ có duy trì hiệu quả hay không
Có ý kiến cho rằng thay vì chặn AI crawler, có thể giải quyết vấn đề bằng cách cung cấp nội dung độc hại cho chúng
- Nếu Amazon phát hiện ra điều đó, họ có thể sẽ chi tiền để giải quyết vấn đề
Đặt ra khả năng đây là một cuộc tấn công DDoS giả mạo Amazon
- Việc các yêu cầu đến từ IP dân dụng là điều đáng ngờ
Trang Pinboard cũng bị tăng vọt lưu lượng vì AI crawler nên đã bị sập
- Không thể chặn theo dải IP nên phải dùng CAPTCHA
Có ý kiến mong Amazon cung cấp AWS credit để bù chi phí vượt lưu lượng
- Hy vọng có thể bù lại bằng doanh thu quảng cáo
Trước khi cấu hình Nginx để chặn, Bytespider và Amazonbot chiếm 80% toàn bộ lưu lượng
- ClaudeBot đã tạo ra lượng truy cập trên Redmine trong một tháng vượt cả 5 năm trước đó

Máy chủ Git của tôi trở nên bất ổn vì crawler AI của Amazon

Máy chủ Git của tôi trở nên bất ổn vì crawler AI của Amazon

Bài viết liên quan

1 bình luận

Ý kiến Hacker News