Ai có liên hệ nội bộ với OpenAI, xin hãy nhờ họ xử lý vấn đề bot nhện
(mailman.nanog.org)Vấn đề GPTBot của OpenAI thu thập dữ liệu website quá mức
-
Tác giả gặp vấn đề GPTBot của OpenAI truy cập website của mình là web.sp.am và thu thập dữ liệu trang quá mức
- Mỗi ngày bot yêu cầu khoảng 3 triệu trang, trong đó 1,8 triệu là yêu cầu tới robots.txt
- Website của tác giả có dạng Content Farm với cấu trúc gồm 6,859 tỷ website, mỗi website chỉ có 1 trang
- Tất cả các trang trông gần như giống hệt nhau và đều dùng cùng một IP, cùng một chứng chỉ SSL wildcard, nên crawler không phải là khó để nhận ra tình huống này
-
Khoảng 1–2 tháng trước, crawler của Amazon cũng gây ra vấn đề tương tự, nhưng tác giả đã có thể liên hệ để khiến họ ngừng crawl
-
Tác giả đang hỏi liệu có ai có thể liên hệ với OpenAI hay không
-
Tác giả đùa rằng có vẻ dữ liệu website của mình đang được dùng để huấn luyện GPT-5
Ý kiến của GN⁺
- Việc crawler không diễn giải robots.txt đúng cách và gửi yêu cầu quá mức, dù không mang ác ý, vẫn là một vấn đề nghiêm trọng có thể gây thiệt hại cho dịch vụ từ phía bên kia. Có vẻ OpenAI cũng cần sớm cải thiện logic của crawler
- Đặc biệt với những nơi vận hành vô số domain như Content Farm, cần cân nhắc các biện pháp như lọc dựa trên IP để tránh crawl từng site riêng lẻ
- Có vẻ cần một quy trình và hệ thống để giám sát hoạt động của bot crawl, phát hiện dấu hiệu bất thường và phản ứng nhanh
- Cần giao tiếp chặt chẽ với quản trị viên của các site bị crawl để giảm thiểu thiệt hại. Không nên chỉ tập trung vô điều kiện vào việc thu thập dữ liệu, mà góc nhìn cùng có lợi là rất quan trọng
1 bình luận
Ý kiến trên Hacker News
GPT-2/3/J đã thấy trên subreddit r/counting việc người dùng đăng các con số tăng dần tới vô hạn, nên coi các tên người dùng như SolidGoldMagikarp là những chuỗi phổ biến trên Internet và xử lý chúng như các token hạng cao nhất trong quá trình token hóa.
Từ vựng của GPT-3 bị giới hạn ở 50.257 token duy nhất. Có thể suy đoán rằng sở thích ngách của những người dùng subreddit này đã làm tăng chi phí điện, và tuy mối quan hệ không tuyến tính, nó vẫn có tác động đo được giữa việc đó và việc cấp phát slot cho các chuỗi con thường gặp trong văn bản thực để giảm số token đầu vào trung bình.
Sẽ khá buồn cười nếu phụ đề của trang web, "IECC ChurnWare 0.3", trở thành một token của GPT-5.
Chủ sở hữu trang web đã viết robots.txt không đúng cách nên vô tình chú thích đi phần thực sự cho phép thu thập dữ liệu.
Có người đặt câu hỏi về mục đích của các content farm. Trông thì vô nghĩa, nhưng có vẻ bị chi phối bởi những động lực kinh tế kỳ quặc. Có liên kết tiếp thị liên kết, nhưng khó biết chúng kiếm được bao nhiêu.
Một số người đùa rằng trong các server farm của OpenAI thực sự có nhện và hy vọng chúng sẽ bò sang các rack khác.
Trong bảo mật mạng, kiểu này được gọi là tarpit. Nó có thể làm chậm tấn công, quét và tự động hóa, khiến kẻ tấn công lãng phí thời gian và năng lượng, đồng thời giúp phía phòng thủ có thêm thời gian.
Nếu OpenAI cũng tuân theo robots.txt thì sẽ có vấn đề về chặn bot và thu thập dữ liệu. Trong 100.000 trang web hàng đầu, đã có 11% chặn crawler, nhiều hơn các đối thủ.
Chủ trang web dường như không quá bận tâm đến việc bị tìm kiếm qua hàng triệu trang, nên có lẽ cứ để OpenAI làm những gì họ muốn.
Cuối cùng OpenAI và các bên khác phần lớn sẽ phải huấn luyện mô hình bằng nội dung do AI tạo ra, vốn thường hơi thiếu chính xác, và điều đó có thể dẫn đến chất lượng phản hồi của AI suy giảm. Hiện tại phần lớn vẫn là nội dung do con người viết, nhưng 5 năm nữa thì có thể không còn như vậy. Đây là một trong những vấn đề mà ngành AI cần sớm giải quyết.
Bản thân mục đích của kiểu trang web này là lãng phí thời gian/tài nguyên của spider, vậy tại sao lại không muốn làm điều đó với OpenAI?
Những honeypot như thế này có vẻ là một cách thú vị để đầu độc dữ liệu huấn luyện LLM.