-
Máy chủ Git của tôi trở nên bất ổn vì crawler AI của Amazon
-
Blog hỗ trợ: Nếu bạn thích blog này, bạn có thể hỗ trợ Xe trên Patreon
-
Đăng ký Patreon: Quảng cáo EthicalAds
-
Cập nhật (2025-01-18 23:50 UTC): Tôi đã viết một proxy thực hiện kiểm tra bằng chứng công việc trước khi cho phép yêu cầu đến máy chủ Gitea. Tên của nó là Anubis, và tôi dự định sớm viết một bài blog về nó. Hiện tại có thể xem tại https://git.xeserv.us/. Nó vẫn còn khá thô, nhưng hoạt động đủ tốt
-
Cập nhật (2025-01-18 19:00 UTC): Tôi bỏ cuộc. Tôi đã chuyển máy chủ Gitea ra sau VPN. Tôi đang làm một reverse proxy bằng chứng công việc để bảo vệ máy chủ khỏi bot. Sẽ sớm đưa nó hoạt động trở lại
-
Cập nhật (2025-01-17 17:50 UTC): Tôi đã thêm đoạn sau vào cấu hình ingress:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }Bot vẫn đang tấn công từ các IP khác. Khoảng 10% yêu cầu không có user-agent amazonbot. Tôi không biết phải làm gì tiếp theo. Tôi ghét tương lai
-
Yêu cầu giúp đỡ: Tôi muốn nhờ ai đang vận hành AmazonBot thêm
git.xeserv.usvào danh sách tên miền bị chặn. Nếu bạn biết ai đó ở Amazon, mong bạn chuyển tiếp thông điệp này. Nếu muốn crawl máy chủ Git, xin hãy liên hệ để có thể chi trả mức chi phí tương xứng với việc nâng cấp phần cứng. Tôi không muốn đóng máy chủ Gitea với công chúng, nhưng nếu cần thì tôi sẽ làm vậy. Việc chặn các bot crawler AI là vô nghĩa. Chúng nói dối, đổi user-agent và dùng địa chỉ IP dân dụng làm proxy. Tôi chỉ mong các yêu cầu này dừng lại -
Tôi đã cấu hình sẵn tệp
robots.txtđể chặn mọi bot:User-agent: * Disallow: /Tôi không biết mình còn phải làm gì nữa
1 bình luận
Ý kiến Hacker News
Có thể thử giải quyết vấn đề bằng cách nhờ luật sư soạn một thư "cease and desist" rõ ràng và gửi cho Amazon
Đề xuất cách chặn AI crawler bằng cách thêm các liên kết mà con người sẽ không truy cập vào website và cấm chúng trong robots.txt
Các bot AI và SEO hầu như không tuân thủ robots.txt và rất khó để chặn
Có khả năng đây là một chủ thể khác giả mạo làm AI crawler của Amazon chứ không phải Amazon
Đã xảy ra vấn đề mức sử dụng CPU tăng vọt trên máy chủ cá nhân do AI crawler
Có ý kiến cho rằng thay vì chặn AI crawler, có thể giải quyết vấn đề bằng cách cung cấp nội dung độc hại cho chúng
Đặt ra khả năng đây là một cuộc tấn công DDoS giả mạo Amazon
Trang Pinboard cũng bị tăng vọt lưu lượng vì AI crawler nên đã bị sập
Có ý kiến mong Amazon cung cấp AWS credit để bù chi phí vượt lưu lượng
Trước khi cấu hình Nginx để chặn, Bytespider và Amazonbot chiếm 80% toàn bộ lưu lượng