1 điểm bởi GN⁺ 2024-06-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tác giả hôm qua đã viết một bài về việc chặn bot AI trên máy chủ, và hôm nay cũng thực hiện điều tương tự cho MacStories
  • Sau khi cấu hình xong, Federico vẫn có thể trích dẫn một bài đăng cụ thể của MacStories từ trang Perplexity
  • Tác giả đã áp dụng các thay đổi sau trên trang của mình:
    • 30 tháng 3: bắt đầu chặn các bot như PerplexityBot trong robots.txt
    • 14 tháng 6: thêm cơ chế chặn phía máy chủ trong nginx. Tất cả mục khớp đều trả về phản hồi 403 Forbidden
  • Tác giả giả định rằng mọi công ty AI đều bỏ qua robots.txt và cho rằng các yêu cầu từ tháng 3 có lẽ đã không có tác dụng
  • Vì tác giả đã đăng bài viết về việc chặn bot AI sau khi biện pháp chặn được áp dụng, nên nếu User Agent thực sự được gửi đi thì Perplexity lẽ ra không thể truy cập trang đó
  • Tuy nhiên, khi hỏi Perplexity về bài đăng đó, tác giả nhận được một bản tóm tắt hoàn chỉnh, bao gồm cả những chi tiết không thể biết chỉ bằng suy đoán
  • Tác giả nghĩ rằng có thể mình đã cấu hình sai vì mới chỉ thử giả mạo User Agent của Chrome
  • Nhưng khi kiểm thử mã bằng chính User Agent PerplexityBot mà Perplexity tuyên bố dùng cho các yêu cầu, tác giả nhận được phản hồi 403 như dự kiến, cho thấy cấu hình nginx không có vấn đề gì
  • Khi tác giả hỏi Perplexity AI làm thế nào họ vẫn có thể truy cập trang dù robots.txt đã chặn, Perplexity AI trả lời rằng họ không có khả năng thu thập hay truy cập nội dung bị chặn bởi robots.txt, và việc truy cập hoặc tóm tắt nội dung bị hạn chế là không mang tính đạo đức
  • Tuy nhiên, Lewis đã xác nhận rằng Perplexity đang dùng chuỗi User Agent sau, trong đó không có PerplexityBot:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
    Quảng cáo
  • Sau khi bật access log và đặt câu hỏi cho Perplexity, tác giả cũng xác nhận giống như Lewis rằng User Agent không hề chứa User Agent tùy chỉnh nào
  • Perplexity đang dùng trình duyệt headless để scrape nội dung, đồng thời bỏ qua robots.txt và cũng không gửi chuỗi User Agent đúng
  • Có vẻ như cũng không thể chặn dải IP của Perplexity vì các trình duyệt headless này dường như không nằm trong dải IP của họ
  • Tác giả không muốn các bài viết của mình bị các công ty AI thu thập miễn phí, nhưng hiện không còn biện pháp nào khác có thể làm
  • Tác giả đã tham gia Discord của Perplexity, tự giới thiệu trong kênh giới thiệu và gửi báo lỗi trong kênh bug
  • Bước tiếp theo đang được cân nhắc là gửi yêu cầu theo GDPR, nhưng vẫn chưa chắc chắn

Ý kiến của GN⁺

  • Tầm quan trọng của việc chặn bot AI: Cần có phương pháp chặn phù hợp để ngăn bot AI sử dụng trái phép nội dung của trang web.
  • Kiểm tra User Agent: Nếu bot AI không dùng User Agent chính xác, việc xác minh và chặn chúng là rất quan trọng.
  • Giới hạn của tệp robots.txt: Nhiều bot AI có thể bỏ qua robots.txt, vì vậy cần thêm các biện pháp chặn ở phía máy chủ.
  • Bảo vệ quyền riêng tư: Cần cân nhắc các cách ngăn truy cập trái phép của bot AI thông qua các quy định như GDPR.
  • Giải pháp thay thế: Dùng các giải pháp chặn bot AI khác hoặc công cụ bảo mật để bảo vệ trang web cũng là một cách tốt.

1 bình luận

 
GN⁺ 2024-06-16
Ý kiến Hacker News
  • Phải có khả năng ngăn LLM học từ dữ liệu của tôi, và Perplexity nên giúp việc chặn này trở nên dễ dàng.
  • Việc cấm Perplexity cung cấp dữ liệu từ website của tôi cho người dùng thông qua truy vấn web thời gian thực là đang bước vào một vùng nguy hiểm.
  • Các trình chặn quảng cáo, chế độ đọc, trình đọc màn hình v.v. cũng hoạt động theo cách tương tự Perplexity, và việc cấm điều này có thể ảnh hưởng đến nhiều công cụ.
  • Không muốn chủ sở hữu website dùng DRM để ép website chỉ được hiển thị theo một cách nhất định.
  • Có vẻ đã hiểu sai về thời điểm user agent của Perplexity được áp dụng.
  • Chủ sở hữu website không thể quyết định người dùng sẽ dùng trình duyệt nào, và Perplexity cũng không phải ngoại lệ.
  • Việc Perplexity thu thập dữ liệu hàng loạt mà không có user agent là có vấn đề, và cần phải dừng lại.
  • Cần phân biệt giữa việc công ty AI scrape website để huấn luyện mô hình và việc lấy một trang web theo yêu cầu của người dùng.
  • Cung cấp liên kết bài viết bàn về vấn đề Perplexity lấy và sử dụng nội dung của người khác.
  • Trình crawler của Perplexity nên tôn trọng robots.txt, còn user agent không phải là crawler nên không cần phải tuân theo.
  • Tôi không bận tâm nếu các công ty AI scrape website của tôi, và sẽ để họ lấy dữ liệu sai.
  • Ai từng làm web scraping sẽ hiểu vì sao người ta lại nói dối về user agent.
  • CEO của Perplexity đã chỉ trích Google và OpenAI, nhưng rồi lại bị lộ là chính họ cũng không tuân theo robots.txt và che giấu user agent.
  • Có thể dùng prompt injection vô hình để ngăn các công ty AI lấy nội dung của tôi miễn phí.
  • Không thể gọi việc Perplexity không tuân theo một tiêu chuẩn web mang tính tự nguyện là nói dối.