8 điểm bởi GN⁺ 2024-07-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Google hiện là công cụ tìm kiếm duy nhất có thể hiển thị kết quả từ Reddit
  • Reddit gần đây đã cập nhật tệp robots.txt để chặn việc thu thập dữ liệu từ tất cả công cụ tìm kiếm ngoại trừ Google
  • Trên các công cụ tìm kiếm thay thế không phụ thuộc vào chỉ mục của Google như Bing, DuckDuckGo, Mojeek, Qwant, hiện không thể xem kết quả tìm kiếm Reddit trong vòng 1 tuần gần đây
    • DuckDuckGo hiển thị 7 liên kết khi tìm Reddit, nhưng không cung cấp thông tin về đích đến của liên kết hay lý do hiển thị
    • Kagi có thể tìm kiếm Reddit vì mua một phần chỉ mục tìm kiếm của Google
  • Việc này xảy ra trong bối cảnh thế độc quyền tìm kiếm của Google đang làm suy giảm khả năng cạnh tranh của các công ty khác
  • Reddit và Google không phản hồi yêu cầu bình luận từ báo chí về vấn đề này, nhưng việc loại trừ các công cụ tìm kiếm khác dường như xuất phát từ hợp đồng trị giá hàng triệu đô la trao cho Google quyền thu thập dữ liệu Reddit để huấn luyện sản phẩm AI

Phản ứng của CEO Mojeek

  • Colin Hayhurst, CEO của Mojeek, cho biết đầu tháng 6 Mojeek phát hiện việc thu thập dữ liệu Reddit bị chặn và đã liên hệ qua email nhưng không nhận được phản hồi
  • Hayhurst nói rằng: "Đôi khi chúng tôi bị chặn vì sự thiếu hiểu biết hoặc vì những quyết định ngớ ngẩn, nhưng chỉ cần liên hệ là có thể giải quyết. Lần này thì chưa từng có tiền lệ: không ai phản hồi cả"
  • Ngoài việc chặn crawler nói chung, Reddit còn được cho là đang chủ động chặn crawler của Mojeek

Xu hướng gia tăng chặn việc thu thập dữ liệu của các công ty AI

  • Nhiều website đang cập nhật tệp robots.txt, và các nỗ lực chặn bot của các công ty AI thu thập dữ liệu huấn luyện đang tăng mạnh
  • Gần đây Google đã giới thiệu hai crawler: Googlebot để cải thiện kết quả tìm kiếm và Google-Extended để cải thiện ứng dụng Gemini
  • Tệp robots.txt chỉ là hướng dẫn đơn thuần và crawler có thể phớt lờ nó
Quảng cáo

Bối cảnh đằng sau động thái của Reddit

  • Reddit từ lâu đã không hài lòng với các công ty AI thu thập dữ liệu từ trang để huấn luyện mô hình ngôn ngữ lớn, và đã thực hiện các biện pháp công khai, quyết liệt để ngăn chặn
  • Năm ngoái, Reddit bắt đầu thu phí truy cập API, khiến nhiều ứng dụng bên thứ ba trở nên quá đắt đỏ để tiếp tục vận hành và phải đóng cửa
  • Đầu năm nay, Reddit ký hợp đồng trị giá 60 triệu USD với Google, cho phép Google cấp phép nội dung Reddit để huấn luyện sản phẩm AI

Thay đổi trong tệp robots.txt của Reddit

  • Trước đây nó có cấu trúc phức tạp kèm nhiều câu đùa, nhưng gần đây đã trở nên đơn giản và nghiêm ngặt hơn
  • Hiện tại chỉ còn chỉ thị "User-agent: *, Disallow: /", nghĩa là không bot nào được phép thu thập bất kỳ phần nào của website
  • Reddit tuyên bố rằng họ "tin vào internet mở, nhưng không chấp nhận việc lạm dụng nội dung công khai"

Lập trường của Reddit

  • Gần đây ngày càng có nhiều chủ thể thương mại thu thập dữ liệu từ Reddit rồi cho rằng họ không bị ràng buộc bởi điều khoản hay chính sách nào
  • Việc núp sau robots.txt để nói rằng có thể dùng nội dung Reddit cho bất kỳ mục đích nào còn là vấn đề nghiêm trọng hơn
  • Reddit cho biết sẽ cố gắng hết sức để tìm và chặn trước các tác nhân xấu, nhưng cần làm nhiều hơn nữa để bảo vệ đóng góp của các Redditor
  • Trong thời gian tới, Reddit sẽ cập nhật hướng dẫn robots.txt rõ ràng nhất có thể. Nếu truy cập Reddit bằng tác nhân tự động, cần tuân thủ điều khoản, chính sách và trao đổi với Reddit
Quảng cáo

Truy cập dữ liệu Reddit cho mục đích phi thương mại vẫn còn khả thi

  • Reddit cho biết "các tác nhân thiện chí (nhà nghiên cứu, Internet Archive, v.v.) vẫn có thể tiếp tục truy cập nội dung Reddit cho mục đích phi thương mại"
  • Reddit nói rằng họ sẽ lựa chọn có chọn lọc các chủ thể đáng tin cậy để cấp quyền truy cập quy mô lớn vào dữ liệu Reddit
  • Theo hướng dẫn truy cập dữ liệu Reddit, "tìm kiếm hoặc quảng cáo website" được coi là "mục đích thương mại", và không thể sử dụng dữ liệu Reddit nếu không có sự cho phép hoặc trả phí

Hàm ý của thực tế chỉ Google hỗ trợ tìm kiếm Reddit

  • Trong bối cảnh mức độ liên quan của tìm kiếm Google ngày càng giảm, một trong những cách vẫn cho ra kết quả tốt là thêm "Reddit" vào truy vấn tìm kiếm
  • Lý do là trên Reddit, người dùng thật đã để lại lời khuyên và khuyến nghị suốt gần 20 năm
  • Giờ đây chỉ Google mới có thể dẫn người dùng đến những thông tin đó, và thực tế điều này là kết quả của hợp đồng 60 triệu USD liên quan đến dữ liệu huấn luyện AI cho thấy thêm một hệ quả ngoài ý muốn của việc cào quét toàn bộ internet một cách bừa bãi để tiếp sức cho các công cụ AI tạo sinh

Lo ngại của CEO Mojeek

  • Mojeek trong 20 năm qua luôn thu thập dữ liệu một cách tôn trọng và là công cụ tìm kiếm truyền thống không huấn luyện AI cũng không theo dõi người dùng
  • Thỏa thuận giữa Reddit và Google khiến việc cung cấp một cách tiếp cận thay thế để tìm kiếm web trở nên khó khăn hơn
  • Đây là một phần của xu hướng rộng lớn hơn đang dần bào mòn và giết chết web
  • Vụ việc này không giúp ích gì cho các công ty nhỏ

Ý kiến của GN⁺

  • Động thái của Reddit nhằm bảo vệ quyền của bên tạo nội dung và ngăn chặn việc khai thác thương mại, nhưng cũng có thể dẫn đến hệ quả làm suy giảm cạnh tranh trên thị trường công cụ tìm kiếm
  • Đặc biệt, việc Google gần như độc quyền dữ liệu Reddit cho huấn luyện AI làm dấy lên lo ngại về khả năng lạm dụng vị thế thống trị thị trường của Google
  • Về dài hạn, có vẻ cấp thiết phải xây dựng các chuẩn mực và chính sách để bên cung cấp nội dung, công cụ tìm kiếm và các công ty AI có thể cùng tồn tại và cùng có lợi
  • Mặt khác, việc tìm kiếm Reddit nổi lên như một giải pháp thay thế cho chất lượng tìm kiếm suy giảm tự nó đã là một điều mỉa mai. Về căn bản, các công cụ tìm kiếm cần nỗ lực nâng cao mức độ liên quan và tính đa dạng của kết quả
  • Cũng đáng theo dõi sự phát triển của các công cụ tìm kiếm mới như Kagi, vốn tận dụng một phần chỉ mục tìm kiếm của Google nhưng vẫn tìm kiếm cách tiếp cận riêng

1 bình luận

 
GN⁺ 2024-07-25
Ý kiến trên Hacker News
  • Việc Reddit thay đổi robots.txt có thể hiểu được trong bối cảnh AI, nhưng lại mang tính phản cạnh tranh đối với các công cụ tìm kiếm khác
  • Đây có thể trở thành một tiền lệ nguy hiểm cho Internet
  • Nhiều trang web có thể có quyền thu phí cho việc lập chỉ mục
  • Có thể sẽ đến một thế giới mà muốn lấy câu trả lời từ một số trang nhất định thì phải dùng một công cụ tìm kiếm cụ thể
  • Xét về hiệu quả, việc các website cho công cụ tìm kiếm thuê dữ liệu sẽ tốt hơn
  • Thực tế hiện nay chỉ có hai công cụ tìm kiếm
  • Đây là tình huống rất tệ với Kagi, nhưng cũng có khả năng web phi thương mại vốn được vận hành như sở thích sẽ được khám phá lại
  • Theo luật pháp Mỹ, việc thay đổi robots.txt hoặc điều khoản sử dụng không có tính ràng buộc với web scraper
    • Vì dữ liệu có thể được truy cập công khai
    • Kể cả khi hiển thị biểu ngữ đồng ý điều khoản khi dùng trang thì cũng không có tính ràng buộc
    • Chỉ khi hạn chế truy cập dữ liệu và buộc phải tạo tài khoản mới có thể tạo ra tính ràng buộc
  • Reddit đã thay đổi robots.txt từ một tháng trước
    • Trong 19 năm, họ đã dùng robots.txt rất rộng rãi
    • Có vẻ như thay đổi này là do việc lạm dụng dữ liệu
    • Có khả năng họ sẽ mở lại nếu công cụ tìm kiếm đồng ý không dùng dữ liệu để huấn luyện
  • Vấn đề các bot AI cào dữ liệu trang web để huấn luyện LLM đang ngày càng nghiêm trọng
    • Ví dụ: trang thegreatestbooks.org đã nhận 1,2 triệu yêu cầu bot/tự động hóa trong 24 giờ
  • Reddit đã trở thành công cụ tìm kiếm duy nhất còn hoạt động trên Google
  • Không thể hiểu nổi vì sao hành động của Reddit lại không bị xem là phản cạnh tranh
    • Họ cũng nên cung cấp điều kiện tương tự cho các đối thủ của Google