- Bài giới thiệu về GPTBot, trình thu thập dữ liệu web do OpenAI phát triển
- Có thể nhận diện bằng token user-agent "GPTBot" và chuỗi user-agent đầy đủ
- Các trang web được GPTBot thu thập có thể được օգտագործ để cải thiện các mô hình AI trong tương lai
- Trình thu thập lọc ra các nguồn yêu cầu truy cập paywall, những nơi được biết là thu thập thông tin nhận dạng cá nhân (PII), và văn bản vi phạm chính sách của OpenAI
- Việc cho phép GPTBot truy cập trang web có thể giúp cải thiện độ chính xác, năng lực tổng quát và độ an toàn của các mô hình AI
- Có thể ngăn GPTBot truy cập trang web bằng cách thêm GPTBot vào
robots.txt của trang, đồng thời cũng có thể cho phép GPTBot truy cập vào các thư mục cụ thể của trang web
- Dải IP egress mà trình thu thập sử dụng được nêu riêng trên trang web của OpenAI
3 bình luận
Chắc sẽ có rất nhiều thử nghiệm được thực hiện nhỉ
Liệu các quản trị viên của những website yêu cầu vượt paywall có sẽ mở quyền truy cập cho bot để thêm nội dung của họ vào các mô hình ChatGPT không?
Hiện nay, ngay cả các site yêu cầu trả phí truy cập đôi khi cũng mở cho bot của Google vào để lập bộ nhớ đệm.
Tất nhiên cũng có những bot lợi dụng điều đó theo chiều ngược lại để crawl nữa haha
Ý kiến trên Hacker News