Ai có liên hệ nội bộ với OpenAI, xin hãy nhờ họ xử lý vấn đề bot nhện

(mailman.nanog.org)

2 điểm bởi GN⁺ 2024-04-12 | 1 bình luận | Chia sẻ qua WhatsApp

Vấn đề GPTBot của OpenAI thu thập dữ liệu website quá mức

Tác giả gặp vấn đề GPTBot của OpenAI truy cập website của mình là web.sp.am và thu thập dữ liệu trang quá mức
- Mỗi ngày bot yêu cầu khoảng 3 triệu trang, trong đó 1,8 triệu là yêu cầu tới robots.txt
- Website của tác giả có dạng Content Farm với cấu trúc gồm 6,859 tỷ website, mỗi website chỉ có 1 trang
- Tất cả các trang trông gần như giống hệt nhau và đều dùng cùng một IP, cùng một chứng chỉ SSL wildcard, nên crawler không phải là khó để nhận ra tình huống này
Khoảng 1–2 tháng trước, crawler của Amazon cũng gây ra vấn đề tương tự, nhưng tác giả đã có thể liên hệ để khiến họ ngừng crawl
Tác giả đang hỏi liệu có ai có thể liên hệ với OpenAI hay không
Tác giả đùa rằng có vẻ dữ liệu website của mình đang được dùng để huấn luyện GPT-5

Ý kiến của GN⁺

Việc crawler không diễn giải robots.txt đúng cách và gửi yêu cầu quá mức, dù không mang ác ý, vẫn là một vấn đề nghiêm trọng có thể gây thiệt hại cho dịch vụ từ phía bên kia. Có vẻ OpenAI cũng cần sớm cải thiện logic của crawler
Đặc biệt với những nơi vận hành vô số domain như Content Farm, cần cân nhắc các biện pháp như lọc dựa trên IP để tránh crawl từng site riêng lẻ
Có vẻ cần một quy trình và hệ thống để giám sát hoạt động của bot crawl, phát hiện dấu hiệu bất thường và phản ứng nhanh
Cần giao tiếp chặt chẽ với quản trị viên của các site bị crawl để giảm thiểu thiệt hại. Không nên chỉ tập trung vô điều kiện vào việc thu thập dữ liệu, mà góc nhìn cùng có lợi là rất quan trọng

1 bình luận

GN⁺ 2024-04-12

Các ý kiến trên Hacker News

Nhớ đến việc GPT-2/3/J từng gặp https://reddit.com/r/counting. Đây là nơi người dùng Reddit đếm vô hạn bằng cách tăng từng con số một; có lẽ những tên người dùng như SolidGoldMagikarp trông như các chuỗi quá phổ biến trên Internet nên trong quá trình token hóa chúng được xử lý như token độc lập
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
Từ vựng không phải vô hạn, và được biết GPT-3 cũng chỉ có 50.257 token trong từ vựng. Tôi cũng tò mò liệu có thể đo được chênh lệch giữa chi phí điện năng bổ sung phát sinh vì thú vui ngách này trên Reddit, với việc phân bổ chỗ đó cho các chuỗi con thường gặp hơn trong văn bản thực tế để giảm số token đầu vào trung bình hay không
Sẽ buồn cười nếu phụ đề của trang OP, IECC ChurnWare 0.3, trở thành token của GPT-5
- Tôi tò mò nguyên nhân của ảo giác nằm ở nội dung gốc đến mức nào, thay vì là bản chất của chính các mô hình ngôn ngữ lớn. Vì trên diễn đàn Internet, nếu có ai hỏi một câu mà tôi không biết đáp án, tôi cũng sẽ không cố viết “tôi không biết”
  Thực tế, ở những nơi không phải đối thoại một-một, câu trả lời “tôi không biết” thường không hữu ích. Vì trong một nhóm, nếu không biết thì im lặng đã thể hiện điều đó rồi
- Trong quá trình token hóa, tên người dùng đã trở thành token, nhưng trước khi huấn luyện mô hình thực tế, những văn bản như vậy đã bị loại khỏi dữ liệu huấn luyện, nên mô hình không được huấn luyện trên văn bản chứa token đó. Vì vậy mới xuất hiện token lỗi không gắn với bất kỳ ý nghĩa nào
- Computerphile cũng có thảo luận về token lỗi
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- Hiện nay kích thước từ vựng phổ biến nhất là 32k
Tôi tò mò hơn là content farm kia dùng để làm gì. Trông có vẻ vô nghĩa, nhưng chắc có động cơ kinh tế kỳ lạ nào đó. Có link affiliate thật, nhưng không biết kiếm được bao nhiêu từ đó
- Đây là honeypot. Tác giả, https://en.wikipedia.org/wiki/John_R._Levine, duy trì farm nhỏ này để mỗi khi một hoạt động scraping mới và có quy mô bắt đầu, nó chắc chắn sẽ đụng vào farm đó và để lại trong log
  Ông ấy là một nhân vật chống spam nổi tiếng, đã hoạt động nhiều mặt từ hàng chục năm trước. Việc khéo léo thả link landing page trong tin nhắn NANOG cũng là cách để bot cắn mồi
- Cái tên John Levine của iecc.com làm tôi nhớ đến Invincible Electric Calculator Company thời Web 1.0. Ông ấy từng điều hành nhóm tin Usenet comp.compilers và viết trình biên dịch C đầu tiên cho IBM PC RT
  https://compilers.iecc.com/
- Trông giống honeypot cho bot hơn. Mục đích cũng khá tương tự
- Linkers & Loaders đúng là sách do ông ấy viết. Các cuốn khác thì tôi chưa kiểm tra
  Trên trang https://www.iecc.com/linker/, trước đây ông ấy từng công khai bản nháp cuốn sách ở nhiều định dạng; khi nó được đăng lên https://news.ycombinator.com/item?id=18424233, tôi đã gói các tệp lại để đọc offline, rồi sau đó dòng chữ trên trang đổi thành “không còn cung cấp nữa do nạn sao chép lậu kinh niên”
  Tôi đã gửi email hỏi xem có ổn không, nhưng nhận được câu trả lời thiếu thân thiện rằng tôi đã sao chép lậu các tệp, nên tôi gỡ link xuống và phía họ cũng sửa câu chữ. Tôi không phải tác giả cuốn sách, còn họ là tác giả, nên họ có thể làm vậy. Chỉ là tôi đã đề xuất nên ghi rõ trên trang rằng đừng làm như thế, nhưng họ chọn cách triệt để hơn
- Chỉ là làm cho vui, và hiện nó đang làm rất tốt vai trò của mình. Không phải thứ gì cũng cần có mục đích kinh tế, 100 tracker, quảng cáo hay tài trợ công ty
Không biết có phải chỉ mình tôi từng hy vọng nội dung là các máy chủ farm của OpenAI thật sự bị nhện hoành hành và bò sang rack của người khác không. Tôi biết không thể nào như vậy, nhưng vẫn đã mong thế
- Tôi đã hy vọng nội dung là một cụm từ khóa lớn đã tạo ra hình ảnh nhện
robots.txt chưa được thiết lập đúng. Phần thực sự chặn đã bị comment lại
Disallow: / cho cả Amazonbot và GPTBot đều bị comment, và hiện chỉ có chặn /archive cho User-agent: * là có hiệu lực
- Nội dung đã thay đổi giữa lúc đó và bây giờ
Nếu tuân theo robots.txt, OpenAI có vấn đề cả về chặn bot lẫn thu thập dữ liệu: https://x.com/AznWeng/status/1777688628308681000
Trong số 100.000 website hàng đầu, 11% đã chặn crawler của OpenAI, nhiều hơn tổng cộng tất cả các đối thủ Google, FB, Anthropic và Perplexity
- Đây là vấn đề không chỉ với huấn luyện mà cả với người dùng cuối. Đã nhiều lần tôi hỏi hoặc yêu cầu tóm tắt một bài dài, nhưng nó nói không thể tự đọc được, rốt cuộc tôi phải sao chép và dán văn bản vào cửa sổ chat
  Xét việc robots.txt không có tính ràng buộc và trong các ngữ cảnh khác họ có vẻ khá không ngại hút dữ liệu công khai, thật bất ngờ khi họ để thứ này trở thành rào cản đối với trải nghiệm người dùng
Tôi nghĩ cứ để vậy cũng được. Nếu muốn Internet thì đây mới là Internet thật sự. Có vẻ anh ta cũng không quá bận tâm việc họ lấy hàng triệu trang, nên cứ để họ làm thôi
- Điều đó gây ảnh hưởng hiệu năng đến những người dùng bình thường khác của web farm đó
- Một số scraper tôn trọng robots.txt. OpenAI thì không. SP chỉ đang cho cả thế giới biết sự thật đó thôi
- Ngay cả CTO cũng nói không biết dữ liệu đến từ đâu
- Đó chính là trọng tâm. Điều anh ta phàn nàn là OpenAI không tôn trọng robots.txt
Trong thế giới an ninh mạng, thứ như thế này được gọi là tarpit. Có thể trì hoãn tấn công, quét và các hình thức tự động hóa khác bằng cách gửi dữ liệu cực chậm hoặc gây đệ quy vô hạn
Kết quả là làm lãng phí thời gian và năng lượng của kẻ tấn công, đồng thời có thể giúp phía mình có thêm thời gian củng cố phòng thủ
- Đọc nội dung email thì tôi có cảm giác nó chỉ là honeypot. Cũng không thấy có độ trễ khi nội dung được trả về
  Tarpit thì khác, vì nó được thiết kế để làm chậm việc quét hoặc scraping và cố ý lãng phí tài nguyên của đối phương. Có nhiều kỹ thuật, nhưng phần lớn là giới hạn phản hồi hoặc tốc độ phản hồi theo cấp số nhân
Năm 2011 cũng từng có chuyện tương tự khi dự án picolisp công bố một “ticker” kiểu chuỗi Markov, tạo trang ngay tại chỗ
https://picolisp.com/wiki/?ticker
Đây là một dạng honeypot khá ổn
Cuối cùng, gần như tất cả các công ty giống OpenAI sẽ huấn luyện mô hình bằng nội dung do AI tạo ra, và xét từ góc độ Q&A, loại nội dung đó khá thường xuyên sai lệch đôi chút, nên chất lượng câu trả lời của AI được huấn luyện trên đó cũng sẽ nhanh chóng tệ đi
Hiện nay phần lớn nội dung Internet do con người viết, nhưng 5 năm nữa có thể không còn như vậy. Tôi nghĩ đây là một trong những vấn đề lớn mà lĩnh vực AI cần nhanh chóng giải quyết. Như câu nói xưa: rác vào thì rác ra
- Đích đến của việc huấn luyện trên văn bản web từ trước đến nay luôn là ouroboros. Vì động lực của công nghệ quảng cáo thúc đẩy sản xuất hàng loạt nội dung chất lượng thấp để kiếm những khoản lợi nhuận nhỏ
  Sự trớ trêu của toàn bộ tình huống này thật khắc nghiệt
- Sẽ không còn những nội dung kiểu rừng nguyên sinh để cào nữa, nhưng nội dung con người muốn vẫn sẽ là thứ phổ biến nhất, được quảng bá, tuyển chọn và biên tập. Ngay cả khi không thể huấn luyện bằng nội dung hữu cơ nữa, vẫn có thể có được nội dung tốt
- Đây là vấn đề đã được giải quyết rồi. Chỉ cần xem Microsoft đã huấn luyện Phi như thế nào. Họ dùng mô hình hiện có để tạo dữ liệu tổng hợp dựa trên sách giáo khoa, nhờ đó có thể tạo ra một bộ dữ liệu mới dựa trên “sự thật” với chất lượng cao hơn nhiều so với những thứ như Common Crawl
  Trông nó giống vấn đề bootstrapping hơn là ouroboros
- Tương lai sẽ là đa phương thức, được huấn luyện và suy luận từ luồng dữ liệu của các mạng cảm biến phân tán. Bao gồm radio, quang học, âm thanh, gia tốc kế, rung động, các cảm biến trong điện thoại và rất nhiều cảm biến khác
  Tôi nghĩ thời đại của transformer chỉ xử lý văn bản đã qua rồi
- Tôi không hiểu vì sao lại nghĩ OpenAI và các bên cùng hội cuối cùng gần như sẽ huấn luyện hoàn toàn bằng nội dung do AI tạo ra. Khả năng nội dung do AI tạo ra trên Internet sẽ nhiều hơn nội dung thật là rất lớn, thậm chí có thể đã như vậy rồi, nhưng không có lý do gì để cho rằng các công ty AI sẽ không nhận ra điều này và điều chỉnh phương pháp huấn luyện
Tôi nghĩ OpenAI có đọc robots.txt, nhưng vẫn lập chỉ mục. Có điều có lẽ họ chỉ đánh dấu rằng đó là nội dung không được phép lập chỉ mục
- Và có vẻ họ sẽ cho những nội dung đó trọng số gấp đôi khi huấn luyện

Ai có liên hệ nội bộ với OpenAI, xin hãy nhờ họ xử lý vấn đề bot nhện

Vấn đề GPTBot của OpenAI thu thập dữ liệu website quá mức

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News