4 điểm bởi GN⁺ 2025-08-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Perplexity đã sử dụng một web crawler giấu danh tính để lách chỉ dẫn cấm crawling
  • Đã ghi nhận các hành vi như bỏ qua tệp robots.txt và thay đổi liên tục IP, User Agent
  • Trong thử nghiệm tên miền mới, đã xác nhận Perplexity vẫn truy cập nội dung website mặc dù có cài đặt cấm
  • Cloudflare đã chỉnh sửa quy tắc quản lý và loại Perplexity khỏi bot đã được xác thực chính thức để ngăn chặn các hành vi như vậy
  • Trái với các nhà vận hành bot thiện chí như OpenAI, hành vi ẩn danh của Perplexity đã bị chỉ trích

Tổng quan về hành vi dùng crawler lén của Perplexity

  • Perplexity là engine trả lời dựa trên AI, ban đầu crawl website bằng User Agent đã được khai báo chính thức
  • Tuy nhiên, khi đối mặt với việc chặn mạng, nó thay đổi User Agent để ẩn danh và cố gắng truy cập qua nhiều ASN (số hệ thống tự trị) khác nhau
  • Trong quá trình này, đã phát hiện nhiều lần cố gắng truy cập mà bỏ qua hoặc thậm chí không gửi yêu cầu tới tệp robots.txt

Nguyên tắc tin cậy giữa website và crawler cùng hành vi gây vấn đề

  • Internet đã phát triển trong nhiều thập kỷ dựa trên niềm tin, và crawler cũng phải tuân thủ các nguyên tắc minh bạch, rõ mục đích, và chuẩn hành vi
  • Crawler phải tôn trọng hướng dẫn và ưu tiên của chủ sở hữu website; hành vi quan sát được của Perplexity lần này vi phạm các nguyên tắc đó
  • Vì vậy, Cloudflare loại Perplexity khỏi danh sách bot đã được xác thực chính thức và áp dụng thêm quy tắc quản lý để phát hiện và chặn crawler lén

Trường hợp thử nghiệm và phát hiện

  • Cloudflare tạo tên miền mới để thử nghiệm hành vi crawl của Perplexity
    • Đặt robots.txt cấm tất cả truy cập tự động và thêm quy tắc WAF
    • Mặc dù chặn User Agent và IP chính thức của Perplexity, việc thu thập nội dung website vẫn được xác nhận vẫn xảy ra với danh tính được giấu
  • Perplexity thử truy cập nội dung bằng cả User Agent chính thức và User Agent lén, trong đó loại sau giả mạo trình duyệt thực tế (Chrome)
Loại Ví dụ User Agent Yêu cầu mỗi ngày
Chính thức Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20.000.000~25.000.000
Ẩn danh Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3.000.000~6.000.000
  • Perplexity dùng nhiều IP và ASN không thuộc dải IP chính thức, đồng thời liên tục thay IP để né chính sách chặn
  • Nhờ vậy, hoạt động này được nhận diện trên hàng chục nghìn domain và hàng triệu request, và Cloudflare nhận dạng crawler này bằng machine learning và tín hiệu mạng

Các trường hợp né qua của crawler lén và giới hạn

  • Khi chặn crawler lén, Perplexity cố gắng cung cấp câu trả lời bằng nguồn bên ngoài như các website khác
  • Tuy nhiên, đã quan sát thấy mức độ chi tiết của nội dung giảm đáng kể trong trường hợp này

Tiêu chuẩn cho nhà vận hành bot thiện chí và thực hành tốt của OpenAI

  • Bot vận hành tốt cần có tính minh bạch, xác định rõ danh tính, công khai mục đích hoạt động, sử dụng bot riêng cho từng hoạt động, tuân thủ quy tắc của web master (như robots.txt)
  • OpenAI cung cấp IP và User Agent chính thức cùng mục đích hoạt động của crawler một cách minh bạch, đồng thời tuân thủ chặt chẽ robots.txt
  • Trong thử nghiệm thực tế, crawler ChatGPT dừng mọi lần thử crawl bổ sung khi phát hiện cấu hình disallow hoặc chặn mạng
  • Cơ chế xác thực chuẩn hóa như Web Bot Auth cũng được áp dụng rất tích cực

Biện pháp bảo vệ và ứng phó

  • Mọi lần crawling phát sinh từ User Agent chưa được báo cáo của Perplexity đều bị hệ thống quản lý bot của Cloudflare phát hiện và chặn
  • Khách hàng đã bật quy tắc chặn bot hoặc quy tắc challenge hiện tại của Cloudflare đã nằm trong nhóm đã được bảo vệ
  • Quy tắc quản trị nhằm chặn crawler lén được cung cấp cho toàn bộ khách hàng (kể cả khách hàng miễn phí)
  • Sau khi công bố Content Independence Day, hơn 2,5 triệu website đã áp dụng chính sách cấm crawling của AI
  • Song song với nỗ lực liên tục né chặn của các nhà vận hành bot, Cloudflare cũng không ngừng hoàn thiện hệ thống phản ứng và công nghệ

Nỗ lực chính sách và triển vọng tương lai

  • Cloudflare đang tham gia tích cực cùng cộng đồng chuyên gia công nghệ và chính sách toàn cầu, trong đó có IETF, để thảo luận chuẩn hóa mở rộng robots.txt
  • Hướng tới việc thiết lập quy tắc cho crawler đáng tin cậy, và tiếp tục nhấn mạnh tính minh bạch và tuân thủ pháp luật trong môi trường AI và crawler biến đổi nhanh

Chưa có bình luận nào.

Chưa có bình luận nào.