12 điểm bởi GN⁺ 2023-08-08 | 3 bình luận | Chia sẻ qua WhatsApp
  • Bài giới thiệu về GPTBot, trình thu thập dữ liệu web do OpenAI phát triển
  • Có thể nhận diện bằng token user-agent "GPTBot" và chuỗi user-agent đầy đủ
  • Các trang web được GPTBot thu thập có thể được օգտագործ để cải thiện các mô hình AI trong tương lai
  • Trình thu thập lọc ra các nguồn yêu cầu truy cập paywall, những nơi được biết là thu thập thông tin nhận dạng cá nhân (PII), và văn bản vi phạm chính sách của OpenAI
  • Việc cho phép GPTBot truy cập trang web có thể giúp cải thiện độ chính xác, năng lực tổng quát và độ an toàn của các mô hình AI
  • Có thể ngăn GPTBot truy cập trang web bằng cách thêm GPTBot vào robots.txt của trang, đồng thời cũng có thể cho phép GPTBot truy cập vào các thư mục cụ thể của trang web
  • Dải IP egress mà trình thu thập sử dụng được nêu riêng trên trang web của OpenAI

3 bình luận

 
ragingwind 2023-08-08

Chắc sẽ có rất nhiều thử nghiệm được thực hiện nhỉ

 
xguru 2023-08-08

Liệu các quản trị viên của những website yêu cầu vượt paywall có sẽ mở quyền truy cập cho bot để thêm nội dung của họ vào các mô hình ChatGPT không?
Hiện nay, ngay cả các site yêu cầu trả phí truy cập đôi khi cũng mở cho bot của Google vào để lập bộ nhớ đệm.
Tất nhiên cũng có những bot lợi dụng điều đó theo chiều ngược lại để crawl nữa haha

 
GN⁺ 2023-08-08
Ý kiến trên Hacker News
  • Đang có thảo luận về tác động tiềm tàng của trình thu thập dữ liệu web của OpenAI, GPTBot, đối với các website
  • Một số người dùng đề xuất thử nghiệm trả về nội dung khác cho GPTBot để xem điều đó ảnh hưởng thế nào đến việc huấn luyện mô hình AI
  • Có lo ngại rằng GPTBot bỏ qua header phản hồi "429 Quá nhiều yêu cầu", có thể gây vấn đề cho các dự án nhỏ có API áp dụng giới hạn số lượng yêu cầu
  • Người dùng đặt câu hỏi về lợi ích của việc cho phép GPTBot truy cập website của họ, vì nội dung của họ có thể bị dùng để cải thiện mô hình AI mà không mang lại lợi ích trực tiếp hay ghi công cho người tạo nội dung gốc
  • Có lo ngại về khả năng đạo văn, khi GPTBot có thể diễn đạt lại nội dung mà không trích dẫn nguồn, khiến việc chứng minh nguồn gốc ban đầu của tài liệu trở nên khó khăn
  • Một số người dùng đang cân nhắc chặn GPTBot vì những lo ngại này, nhưng cũng đặt câu hỏi liệu điều đó có tạo lợi thế cạnh tranh cho những bot không tôn trọng các hạn chế như vậy hay không
  • Cuộc thảo luận cũng đề cập đến vấn đề rộng hơn là vi phạm bản quyền do thu thập dữ liệu web, với một số người dùng cho rằng các mô hình máy học không trích dẫn nguồn nên được xem là mang tính đối kháng và có khả năng vi phạm bản quyền