GPTBot - trình thu thập dữ liệu web của OpenAI

(platform.openai.com)

12 điểm bởi GN⁺ 2023-08-08 | 3 bình luận | Chia sẻ qua WhatsApp

Bài giới thiệu về GPTBot, trình thu thập dữ liệu web do OpenAI phát triển
Có thể nhận diện bằng token user-agent "GPTBot" và chuỗi user-agent đầy đủ
Các trang web được GPTBot thu thập có thể được օգտագործ để cải thiện các mô hình AI trong tương lai
Trình thu thập lọc ra các nguồn yêu cầu truy cập paywall, những nơi được biết là thu thập thông tin nhận dạng cá nhân (PII), và văn bản vi phạm chính sách của OpenAI
Việc cho phép GPTBot truy cập trang web có thể giúp cải thiện độ chính xác, năng lực tổng quát và độ an toàn của các mô hình AI
Có thể ngăn GPTBot truy cập trang web bằng cách thêm GPTBot vào robots.txt của trang, đồng thời cũng có thể cho phép GPTBot truy cập vào các thư mục cụ thể của trang web
Dải IP egress mà trình thu thập sử dụng được nêu riêng trên trang web của OpenAI

3 bình luận

ragingwind 2023-08-08

Chắc sẽ có rất nhiều thử nghiệm được thực hiện nhỉ

xguru 2023-08-08

Liệu các quản trị viên của những website yêu cầu vượt paywall có sẽ mở quyền truy cập cho bot để thêm nội dung của họ vào các mô hình ChatGPT không?
Hiện nay, ngay cả các site yêu cầu trả phí truy cập đôi khi cũng mở cho bot của Google vào để lập bộ nhớ đệm.
Tất nhiên cũng có những bot lợi dụng điều đó theo chiều ngược lại để crawl nữa haha

GN⁺ 2023-08-08

Ý kiến trên Hacker News

Đang có thảo luận về tác động tiềm tàng của trình thu thập dữ liệu web của OpenAI, GPTBot, đối với các website
Một số người dùng đề xuất thử nghiệm trả về nội dung khác cho GPTBot để xem điều đó ảnh hưởng thế nào đến việc huấn luyện mô hình AI
Có lo ngại rằng GPTBot bỏ qua header phản hồi "429 Quá nhiều yêu cầu", có thể gây vấn đề cho các dự án nhỏ có API áp dụng giới hạn số lượng yêu cầu
Người dùng đặt câu hỏi về lợi ích của việc cho phép GPTBot truy cập website của họ, vì nội dung của họ có thể bị dùng để cải thiện mô hình AI mà không mang lại lợi ích trực tiếp hay ghi công cho người tạo nội dung gốc
Có lo ngại về khả năng đạo văn, khi GPTBot có thể diễn đạt lại nội dung mà không trích dẫn nguồn, khiến việc chứng minh nguồn gốc ban đầu của tài liệu trở nên khó khăn
Một số người dùng đang cân nhắc chặn GPTBot vì những lo ngại này, nhưng cũng đặt câu hỏi liệu điều đó có tạo lợi thế cạnh tranh cho những bot không tôn trọng các hạn chế như vậy hay không
Cuộc thảo luận cũng đề cập đến vấn đề rộng hơn là vi phạm bản quyền do thu thập dữ liệu web, với một số người dùng cho rằng các mô hình máy học không trích dẫn nguồn nên được xem là mang tính đối kháng và có khả năng vi phạm bản quyền

GPTBot - trình thu thập dữ liệu web của OpenAI

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News