Perplexity AI đang nói dối về User Agent của mình
(rknight.me)- Tác giả hôm qua đã viết một bài về việc chặn bot AI trên máy chủ, và hôm nay cũng thực hiện điều tương tự cho MacStories
- Sau khi cấu hình xong, Federico vẫn có thể trích dẫn một bài đăng cụ thể của MacStories từ trang Perplexity
- Tác giả đã áp dụng các thay đổi sau trên trang của mình:
- 30 tháng 3: bắt đầu chặn các bot như
PerplexityBottrong robots.txt - 14 tháng 6: thêm cơ chế chặn phía máy chủ trong nginx. Tất cả mục khớp đều trả về phản hồi 403 Forbidden
- 30 tháng 3: bắt đầu chặn các bot như
- Tác giả giả định rằng mọi công ty AI đều bỏ qua robots.txt và cho rằng các yêu cầu từ tháng 3 có lẽ đã không có tác dụng
- Vì tác giả đã đăng bài viết về việc chặn bot AI sau khi biện pháp chặn được áp dụng, nên nếu User Agent thực sự được gửi đi thì Perplexity lẽ ra không thể truy cập trang đó
- Tuy nhiên, khi hỏi Perplexity về bài đăng đó, tác giả nhận được một bản tóm tắt hoàn chỉnh, bao gồm cả những chi tiết không thể biết chỉ bằng suy đoán
- Tác giả nghĩ rằng có thể mình đã cấu hình sai vì mới chỉ thử giả mạo User Agent của Chrome
- Nhưng khi kiểm thử mã bằng chính User Agent
PerplexityBotmà Perplexity tuyên bố dùng cho các yêu cầu, tác giả nhận được phản hồi 403 như dự kiến, cho thấy cấu hình nginx không có vấn đề gì - Khi tác giả hỏi Perplexity AI làm thế nào họ vẫn có thể truy cập trang dù robots.txt đã chặn, Perplexity AI trả lời rằng họ không có khả năng thu thập hay truy cập nội dung bị chặn bởi robots.txt, và việc truy cập hoặc tóm tắt nội dung bị hạn chế là không mang tính đạo đức
- Tuy nhiên, Lewis đã xác nhận rằng Perplexity đang dùng chuỗi User Agent sau, trong đó không có
PerplexityBot:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - Sau khi bật access log và đặt câu hỏi cho Perplexity, tác giả cũng xác nhận giống như Lewis rằng User Agent không hề chứa User Agent tùy chỉnh nào
- Perplexity đang dùng trình duyệt headless để scrape nội dung, đồng thời bỏ qua robots.txt và cũng không gửi chuỗi User Agent đúng
- Có vẻ như cũng không thể chặn dải IP của Perplexity vì các trình duyệt headless này dường như không nằm trong dải IP của họ
- Tác giả không muốn các bài viết của mình bị các công ty AI thu thập miễn phí, nhưng hiện không còn biện pháp nào khác có thể làm
- Tác giả đã tham gia Discord của Perplexity, tự giới thiệu trong kênh giới thiệu và gửi báo lỗi trong kênh bug
- Bước tiếp theo đang được cân nhắc là gửi yêu cầu theo GDPR, nhưng vẫn chưa chắc chắn
Ý kiến của GN⁺
- Tầm quan trọng của việc chặn bot AI: Cần có phương pháp chặn phù hợp để ngăn bot AI sử dụng trái phép nội dung của trang web.
- Kiểm tra User Agent: Nếu bot AI không dùng User Agent chính xác, việc xác minh và chặn chúng là rất quan trọng.
- Giới hạn của tệp robots.txt: Nhiều bot AI có thể bỏ qua robots.txt, vì vậy cần thêm các biện pháp chặn ở phía máy chủ.
- Bảo vệ quyền riêng tư: Cần cân nhắc các cách ngăn truy cập trái phép của bot AI thông qua các quy định như GDPR.
- Giải pháp thay thế: Dùng các giải pháp chặn bot AI khác hoặc công cụ bảo mật để bảo vệ trang web cũng là một cách tốt.
1 bình luận
Ý kiến Hacker News