- Triplegangers là một doanh nghiệp nhỏ do 7 nhân viên vận hành, bán cơ sở dữ liệu về “bản sao số của con người”
- Cung cấp tệp hình ảnh 3D và ảnh cho nghệ sĩ 3D, nhà phát triển trò chơi điện tử, v.v.
- Sự cố: bot của OpenAI dùng hơn 600 địa chỉ IP để crawl website quá mức, khiến máy chủ bị sập
- Cố thu thập hơn 65.000 trang sản phẩm và hàng trăm nghìn bức ảnh
- Làn sóng yêu cầu “tương tự một cuộc tấn công DDoS” như vậy được cho là sẽ làm tăng chi phí AWS
- GPTBot của OpenAI có thể tự do crawl dữ liệu nếu tệp robots.txt không được cấu hình phù hợp
- Hoạt động của bot được cho phép theo mặc định nếu website không chặn riêng
- robots.txt: tệp định nghĩa dữ liệu nào công cụ tìm kiếm không được crawl
- Triplegangers đã không thiết lập đúng tệp robots.txt của website nên bot của OpenAI có thể scrape dữ liệu
- Vấn đề bổ sung:
- OpenAI có thể mất tới 24 giờ để ghi nhận yêu cầu chặn crawl
- Các công ty AI khác cũng crawl dữ liệu theo cách tương tự
Cách Triplegangers ứng phó
- Biện pháp đối phó:
- Tạo tệp robots.txt được cấu hình đúng
- Thiết lập tài khoản Cloudflare để chặn GPTBot và các crawler AI khác
- Kết quả:
- Đã ổn định lại website thành công
- Tuy nhiên, không thể biết OpenAI đã lấy những dữ liệu nào, và cũng không có cách để yêu cầu xóa dữ liệu
- Công cụ opt-out chưa hoàn thiện của OpenAI: khiến doanh nghiệp càng khó ngăn crawl hơn
Vì sao vấn đề crawl đặc biệt nghiêm trọng
- Crawler AI lấy dữ liệu của website mà không được phép, và điều này gây ra vấn đề lớn đặc biệt với các công ty như Triplegangers
- Tính nhạy cảm của dữ liệu:
- Triplegangers sở hữu cơ sở dữ liệu được tạo ra bằng cách quét người thật
- Theo các luật bảo vệ quyền riêng tư như GDPR, việc sử dụng dữ liệu trái phép bị cấm
- Mức độ hấp dẫn của dữ liệu:
- Dữ liệu đã được gắn thẻ nên hữu ích cho việc huấn luyện AI
- Ví dụ: chủng tộc, độ tuổi, đặc điểm cơ thể, v.v. đều được ghi chi tiết
Bài học cho các doanh nghiệp nhỏ khác
- Phát hiện bot AI:
- Muốn kiểm tra bot AI có đang crawl hay không thì việc giám sát log là bắt buộc
- Phần lớn website thậm chí còn không biết mình đã bị crawl
- Vấn đề crawl ngày càng gia tăng:
- Trong năm 2024, lưu lượng truy cập không hợp lệ (Invalid Traffic) nói chung đã tăng 86%
- Crawler AI và scraper là nguyên nhân chính
Kết luận
- Vấn đề crawl của bot AI gây ảnh hưởng nghiêm trọng tới các doanh nghiệp nhỏ
- Các công ty AI nên xin phép trước khi lấy dữ liệu
- Các doanh nghiệp nhỏ nên chủ động dùng robots.txt và tường lửa, đồng thời cần giám sát liên tục
4 bình luận
Nếu 600 IP truy cập vào một site đều là thật thì đúng là cào dữ liệu điên cuồng thật, nhưng chỗ nói là không dùng
robots.txtthì cũng hơi kiểu “hả?” một chút.Có vẻ là doanh nghiệp coi dữ liệu là quan trọng và site cũng đang hoạt động, vậy mà ngay từ thiết lập
robots.txtcơ bản nhất còn chưa làm...Các công ty AI đang tạo ra phần lớn lưu lượng truy cập web
Tôi nghĩ Cloudflare thực sự là một cái ác cần thiết. Nó đúng là một điểm đơn lẻ để tấn công với hiệu năng cực cao.
Ý kiến trên Hacker News
Các công ty AI đang tạo ra rất nhiều lưu lượng truy cập trên các diễn đàn
Với tư cách là lập trình viên web, có sự bất mãn với các scraper kém hiệu quả của các công ty AI
Chỉ ra rằng bài viết đã ghi sai "robots.txt"
Có ý kiến cho rằng lịch sử của web đang lặp lại
Từng quan tâm đến web crawler cá nhân, nhưng hiện thất vọng với nền kinh tế Google thiếu công bằng
Những người gần đây xuất bản sách trên Amazon đang phải cạnh tranh với các bản sao lừa đảo do AI tạo ra
Cảnh báo rằng nếu website không dùng robots.txt đúng cách thì AI có thể tự do scrape
Website có thể dùng mã lỗi HTTP 429 để điều tiết tốc độ của bot