Perplexity AI đang nói dối về User Agent của mình

(rknight.me)

1 điểm bởi GN⁺ 2024-06-16 | 1 bình luận | Chia sẻ qua WhatsApp

Tác giả hôm qua đã viết một bài về việc chặn bot AI trên máy chủ, và hôm nay cũng thực hiện điều tương tự cho MacStories
Sau khi cấu hình xong, Federico vẫn có thể trích dẫn một bài đăng cụ thể của MacStories từ trang Perplexity
Tác giả đã áp dụng các thay đổi sau trên trang của mình:
- 30 tháng 3: bắt đầu chặn các bot như PerplexityBot trong robots.txt
- 14 tháng 6: thêm cơ chế chặn phía máy chủ trong nginx. Tất cả mục khớp đều trả về phản hồi 403 Forbidden
Tác giả giả định rằng mọi công ty AI đều bỏ qua robots.txt và cho rằng các yêu cầu từ tháng 3 có lẽ đã không có tác dụng
Vì tác giả đã đăng bài viết về việc chặn bot AI sau khi biện pháp chặn được áp dụng, nên nếu User Agent thực sự được gửi đi thì Perplexity lẽ ra không thể truy cập trang đó
Tuy nhiên, khi hỏi Perplexity về bài đăng đó, tác giả nhận được một bản tóm tắt hoàn chỉnh, bao gồm cả những chi tiết không thể biết chỉ bằng suy đoán
Tác giả nghĩ rằng có thể mình đã cấu hình sai vì mới chỉ thử giả mạo User Agent của Chrome
Nhưng khi kiểm thử mã bằng chính User Agent PerplexityBot mà Perplexity tuyên bố dùng cho các yêu cầu, tác giả nhận được phản hồi 403 như dự kiến, cho thấy cấu hình nginx không có vấn đề gì
Khi tác giả hỏi Perplexity AI làm thế nào họ vẫn có thể truy cập trang dù robots.txt đã chặn, Perplexity AI trả lời rằng họ không có khả năng thu thập hay truy cập nội dung bị chặn bởi robots.txt, và việc truy cập hoặc tóm tắt nội dung bị hạn chế là không mang tính đạo đức
Tuy nhiên, Lewis đã xác nhận rằng Perplexity đang dùng chuỗi User Agent sau, trong đó không có PerplexityBot:
```
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
```
Quảng cáo
Sau khi bật access log và đặt câu hỏi cho Perplexity, tác giả cũng xác nhận giống như Lewis rằng User Agent không hề chứa User Agent tùy chỉnh nào
Perplexity đang dùng trình duyệt headless để scrape nội dung, đồng thời bỏ qua robots.txt và cũng không gửi chuỗi User Agent đúng
Có vẻ như cũng không thể chặn dải IP của Perplexity vì các trình duyệt headless này dường như không nằm trong dải IP của họ
Tác giả không muốn các bài viết của mình bị các công ty AI thu thập miễn phí, nhưng hiện không còn biện pháp nào khác có thể làm
Tác giả đã tham gia Discord của Perplexity, tự giới thiệu trong kênh giới thiệu và gửi báo lỗi trong kênh bug
Bước tiếp theo đang được cân nhắc là gửi yêu cầu theo GDPR, nhưng vẫn chưa chắc chắn

Ý kiến của GN⁺

Tầm quan trọng của việc chặn bot AI: Cần có phương pháp chặn phù hợp để ngăn bot AI sử dụng trái phép nội dung của trang web.
Kiểm tra User Agent: Nếu bot AI không dùng User Agent chính xác, việc xác minh và chặn chúng là rất quan trọng.
Giới hạn của tệp robots.txt: Nhiều bot AI có thể bỏ qua robots.txt, vì vậy cần thêm các biện pháp chặn ở phía máy chủ.
Bảo vệ quyền riêng tư: Cần cân nhắc các cách ngăn truy cập trái phép của bot AI thông qua các quy định như GDPR.
Giải pháp thay thế: Dùng các giải pháp chặn bot AI khác hoặc công cụ bảo mật để bảo vệ trang web cũng là một cách tốt.

1 bình luận

GN⁺ 2024-06-16

Ý kiến Hacker News

Phải có khả năng ngăn LLM học từ dữ liệu của tôi, và Perplexity nên giúp việc chặn này trở nên dễ dàng.
Việc cấm Perplexity cung cấp dữ liệu từ website của tôi cho người dùng thông qua truy vấn web thời gian thực là đang bước vào một vùng nguy hiểm.
Các trình chặn quảng cáo, chế độ đọc, trình đọc màn hình v.v. cũng hoạt động theo cách tương tự Perplexity, và việc cấm điều này có thể ảnh hưởng đến nhiều công cụ.
Không muốn chủ sở hữu website dùng DRM để ép website chỉ được hiển thị theo một cách nhất định.
Có vẻ đã hiểu sai về thời điểm user agent của Perplexity được áp dụng.
Chủ sở hữu website không thể quyết định người dùng sẽ dùng trình duyệt nào, và Perplexity cũng không phải ngoại lệ.
Việc Perplexity thu thập dữ liệu hàng loạt mà không có user agent là có vấn đề, và cần phải dừng lại.
Cần phân biệt giữa việc công ty AI scrape website để huấn luyện mô hình và việc lấy một trang web theo yêu cầu của người dùng.
Cung cấp liên kết bài viết bàn về vấn đề Perplexity lấy và sử dụng nội dung của người khác.
Trình crawler của Perplexity nên tôn trọng robots.txt, còn user agent không phải là crawler nên không cần phải tuân theo.
Tôi không bận tâm nếu các công ty AI scrape website của tôi, và sẽ để họ lấy dữ liệu sai.
Ai từng làm web scraping sẽ hiểu vì sao người ta lại nói dối về user agent.
CEO của Perplexity đã chỉ trích Google và OpenAI, nhưng rồi lại bị lộ là chính họ cũng không tuân theo robots.txt và che giấu user agent.
Có thể dùng prompt injection vô hình để ngăn các công ty AI lấy nội dung của tôi miễn phí.
Không thể gọi việc Perplexity không tuân theo một tiêu chuẩn web mang tính tự nguyện là nói dối.

Perplexity AI đang nói dối về User Agent của mình

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến Hacker News