6 điểm bởi GN⁺ 2025-01-14 | 4 bình luận | Chia sẻ qua WhatsApp
  • Triplegangers là một doanh nghiệp nhỏ do 7 nhân viên vận hành, bán cơ sở dữ liệu về “bản sao số của con người”
    • Cung cấp tệp hình ảnh 3D và ảnh cho nghệ sĩ 3D, nhà phát triển trò chơi điện tử, v.v.
  • Sự cố: bot của OpenAI dùng hơn 600 địa chỉ IP để crawl website quá mức, khiến máy chủ bị sập
    • Cố thu thập hơn 65.000 trang sản phẩm và hàng trăm nghìn bức ảnh
    • Làn sóng yêu cầu “tương tự một cuộc tấn công DDoS” như vậy được cho là sẽ làm tăng chi phí AWS
  • GPTBot của OpenAI có thể tự do crawl dữ liệu nếu tệp robots.txt không được cấu hình phù hợp
    • Hoạt động của bot được cho phép theo mặc định nếu website không chặn riêng
    • robots.txt: tệp định nghĩa dữ liệu nào công cụ tìm kiếm không được crawl
    • Triplegangers đã không thiết lập đúng tệp robots.txt của website nên bot của OpenAI có thể scrape dữ liệu
  • Vấn đề bổ sung:
    • OpenAI có thể mất tới 24 giờ để ghi nhận yêu cầu chặn crawl
    • Các công ty AI khác cũng crawl dữ liệu theo cách tương tự

Cách Triplegangers ứng phó

  • Biện pháp đối phó:
    • Tạo tệp robots.txt được cấu hình đúng
    • Thiết lập tài khoản Cloudflare để chặn GPTBot và các crawler AI khác
  • Kết quả:
    • Đã ổn định lại website thành công
    • Tuy nhiên, không thể biết OpenAI đã lấy những dữ liệu nào, và cũng không có cách để yêu cầu xóa dữ liệu
    • Công cụ opt-out chưa hoàn thiện của OpenAI: khiến doanh nghiệp càng khó ngăn crawl hơn

Vì sao vấn đề crawl đặc biệt nghiêm trọng

  • Crawler AI lấy dữ liệu của website mà không được phép, và điều này gây ra vấn đề lớn đặc biệt với các công ty như Triplegangers
  • Tính nhạy cảm của dữ liệu:
    • Triplegangers sở hữu cơ sở dữ liệu được tạo ra bằng cách quét người thật
    • Theo các luật bảo vệ quyền riêng tư như GDPR, việc sử dụng dữ liệu trái phép bị cấm
  • Mức độ hấp dẫn của dữ liệu:
    • Dữ liệu đã được gắn thẻ nên hữu ích cho việc huấn luyện AI
    • Ví dụ: chủng tộc, độ tuổi, đặc điểm cơ thể, v.v. đều được ghi chi tiết

Bài học cho các doanh nghiệp nhỏ khác

  • Phát hiện bot AI:
    • Muốn kiểm tra bot AI có đang crawl hay không thì việc giám sát log là bắt buộc
    • Phần lớn website thậm chí còn không biết mình đã bị crawl
  • Vấn đề crawl ngày càng gia tăng:
    • Trong năm 2024, lưu lượng truy cập không hợp lệ (Invalid Traffic) nói chung đã tăng 86%
    • Crawler AI và scraper là nguyên nhân chính

Kết luận

  • Vấn đề crawl của bot AI gây ảnh hưởng nghiêm trọng tới các doanh nghiệp nhỏ
  • Các công ty AI nên xin phép trước khi lấy dữ liệu
  • Các doanh nghiệp nhỏ nên chủ động dùng robots.txt và tường lửa, đồng thời cần giám sát liên tục

4 bình luận

 
crawler 2025-01-14

Nếu 600 IP truy cập vào một site đều là thật thì đúng là cào dữ liệu điên cuồng thật, nhưng chỗ nói là không dùng robots.txt thì cũng hơi kiểu “hả?” một chút.
Có vẻ là doanh nghiệp coi dữ liệu là quan trọng và site cũng đang hoạt động, vậy mà ngay từ thiết lập robots.txt cơ bản nhất còn chưa làm...

 
unsure4000 2025-01-14

Tôi nghĩ Cloudflare thực sự là một cái ác cần thiết. Nó đúng là một điểm đơn lẻ để tấn công với hiệu năng cực cao.

 
GN⁺ 2025-01-14
Ý kiến trên Hacker News
  • Các công ty AI đang tạo ra rất nhiều lưu lượng truy cập trên các diễn đàn

    • Có trường hợp trên Read the Docs cho thấy bot AI đã tạo ra hơn 10TB lưu lượng truy cập
    • Có cáo buộc rằng OpenAI đã dùng 600 địa chỉ IP để scrape dữ liệu
    • Chỉ ghi lại IP reverse proxy của Cloudflare nên không thể biết IP client thực tế
    • Có ý kiến cho rằng việc gọi đây là tấn công DDoS là không công bằng vì log không có dấu thời gian và cũng không đề cập đến tốc độ request
  • Với tư cách là lập trình viên web, có sự bất mãn với các scraper kém hiệu quả của các công ty AI

    • Khuyến nghị tuân thủ quy tắc cơ bản là không gây tải quá mức cho website
    • Cảm thấy các scraper của công ty AI vừa kém hiệu quả vừa gây khó chịu
  • Chỉ ra rằng bài viết đã ghi sai "robots.txt"

    • Cho rằng việc dùng file log không có dấu thời gian làm bằng chứng là đáng ngờ
    • Đánh giá rằng OpenAI không hoàn toàn vô can, nhưng chất lượng bài viết khá thấp
  • Có ý kiến cho rằng lịch sử của web đang lặp lại

    • Trước đây có thể lấy thông tin qua API, nhưng hiện nay phần lớn đã bị chặn
    • Kỳ vọng rằng AI có thể khiến các tương tác tự động như vậy trở nên khả thi trở lại
  • Từng quan tâm đến web crawler cá nhân, nhưng hiện thất vọng với nền kinh tế Google thiếu công bằng

    • Lo ngại rằng dù LLMs có thể mang lại nhiều tiện ích, nỗi sợ bị đánh cắp sáng tạo sẽ khiến mọi cánh cửa đóng lại
  • Những người gần đây xuất bản sách trên Amazon đang phải cạnh tranh với các bản sao lừa đảo do AI tạo ra

    • Có trường hợp BBC đã phỏng vấn về trải nghiệm liên quan đến việc này
  • Cảnh báo rằng nếu website không dùng robots.txt đúng cách thì AI có thể tự do scrape

    • Khuyến nghị kiểm tra robots.txt
  • Website có thể dùng mã lỗi HTTP 429 để điều tiết tốc độ của bot

    • Nếu bot đến từ một subnet, đề xuất áp dụng ở cấp subnet thay vì từng IP riêng lẻ