- Để làm sạch môi trường web bị ô nhiễm bởi spam do AI tạo và các trang trại nội dung, Kagi Search đã giới thiệu hệ thống phát hiện có sự tham gia của cộng đồng mang tên ‘SlopStop’
- SlopStop hiển thị “điểm AI slop” theo thời gian thực cho văn bản, hình ảnh và video do AI tạo trong kết quả tìm kiếm, đồng thời cho phép người dùng trực tiếp báo cáo nội dung chất lượng thấp
- Thông qua cơ chế tự động hạ hạng ở cấp độ tên miền và tính năng lọc media do AI tạo, hệ thống tăng cường khả năng hiển thị thông tin đáng tin cậy
- SlopStop được liên kết với dự án ‘Small Web’, ưu tiên hiển thị các nhà sáng tạo lấy con người làm trung tâm và nội dung chân thực
- Thông qua đó, Kagi đặt mục tiêu xây dựng bộ dữ liệu AI slop lớn nhất thế giới, và dự kiến sử dụng nó cho các công nghệ phòng vệ trước ảo giác AI và thông tin sai lệch trong tương lai
Định nghĩa AI Slop và phản ứng của Kagi
- AI slop là nội dung AI mang tính lừa dối hoặc có giá trị thấp được tạo ra nhằm thao túng thứ hạng tìm kiếm hoặc thu hút sự chú ý
- Ví dụ gồm đánh giá giả, chuyên môn giả mạo, thông tin sai, các trang trại nội dung đặt doanh thu làm trọng tâm
- Kagi không bài xích AI, nhưng khẳng định rằng nội dung AI thay thế sự kết nối và góc nhìn của con người là có hại
- Triết lý của Kagi là “trải nghiệm tìm kiếm nơi con người nắm quyền kiểm soát”, và trước đây hãng đã hạ hạng các trang chất lượng thấp tập trung vào quảng cáo và tracker
- SlopStop mở rộng bộ lọc hình ảnh hiện có để phát hiện nội dung do AI tạo trên mọi loại hình như video, bài viết và tên miền
Cách SlopStop hoạt động
- Kết quả tìm kiếm được bổ sung chức năng hiển thị điểm AI slop, giúp người dùng có thể kiểm tra ngay độ tin cậy của nội dung
- Người dùng có thể báo cáo nội dung chất lượng thấp trong kết quả web, hình ảnh và video bằng tính năng ‘báo cáo là nội dung do AI tạo’
- Kagi sẽ xác minh bằng các tín hiệu nội bộ, sau đó tự động hạ hạng những tên miền có tỷ trọng nội dung AI cao
- Với các tên miền pha trộn, hệ thống chỉ gắn nhãn do AI tạo cho từng trang riêng lẻ
- Hình ảnh và video do AI tạo sẽ được gắn nhãn và tự động hạ hạng ngay khi được xác nhận; người dùng cũng có thể chọn bộ lọc chặn hoàn toàn media AI
- CEO Vlad cho biết: “AI slop là mối đe dọa mang tính hiện sinh đối với Internet lấy con người làm trung tâm, và SlopStop là bước đầu tiên để loại bỏ nó”
Sự kết hợp giữa SlopStop và Small Web
- Tốc độ phát triển của AI rất nhanh, nhưng SlopStop và Small Web cùng hướng tới mục tiêu khôi phục hệ sinh thái web lấy con người làm trung tâm
- Small Web xây dựng whitelist các nhà sáng tạo đã được xác minh là con người, để ưu tiên hiển thị nội dung chân thực
- SlopStop càng lọc được nhiều nội dung AI, khả năng hiển thị của nội dung sáng tạo và đậm chất con người càng tăng
- Hai hệ thống này hoạt động như một cơ chế phòng vệ kép để bảo vệ Internet khỏi sự thương mại hóa và ô nhiễm nhân tạo
Xây dựng và ứng dụng bộ dữ liệu AI Slop
- SlopStop là một bước tăng cường độ tin cậy cho toàn bộ hệ sinh thái Kagi, kết hợp báo cáo từ cộng đồng và công nghệ phát hiện nội bộ để hướng tới mục tiêu xây dựng bộ dữ liệu tên miền AI slop lớn nhất thế giới
- Bộ dữ liệu này dự kiến sẽ được dùng để phát triển công nghệ phát hiện nhằm ngăn ảo giác AI, tuyên bố sai sự thật và thông tin sai lệch
- Kagi dẫn khảo sát của NewsGuard và cho biết 30–41% phản hồi từ các chatbot khác tạo ra câu trả lời sai sự thật
- Cơ sở dữ liệu này dự kiến sẽ được công khai trong tương lai, và người dùng quan tâm có thể đăng ký để nhận cập nhật
Sự tham gia của người dùng và bảo vệ chất lượng
- Kagi thúc đẩy phát triển giải pháp cuối cùng mang tính tự động thông qua vận hành SlopStop dựa trên crowdsourcing
- Người dùng có thể tham gia bằng cách nhấp vào biểu tượng khiên cạnh kết quả tìm kiếm → chọn ‘báo cáo là nội dung do AI tạo’
- Mọi báo cáo sẽ được đội ngũ đánh giá của Kagi xác minh trước khi phản ánh vào hệ thống, từ đó góp phần cải thiện chất lượng tìm kiếm
- Kagi cung cấp tài liệu kỹ thuật và diễn đàn liên quan đến SlopStop để giải thích cách hoạt động và mở kênh phản hồi
- Kagi nhấn mạnh rằng “sự tham gia của mọi người dùng sẽ tạo ra trải nghiệm tìm kiếm đáng tin cậy hơn”
1 bình luận
Ý kiến trên Hacker News
Tôi thích cách tiếp cận lấy cộng đồng làm trung tâm của Kagi. Danh sách Small Web được công khai thực sự rất hữu ích.
Khi áp dụng bộ lọc smallweb trên HN, trang chủ trở nên mới mẻ hơn hẳn
Đôi khi có những bài viết sâu sắc nhưng lại gắn ảnh tiêu đề do AI tạo. Nếu phần thân là thật thì tôi không muốn lọc bỏ những bài như vậy. Tôi thắc mắc liệu cách phân loại trong tài liệu có cho phép kiểu lọc tinh vi này không
Ví dụ như “bài test Will Smith ăn spaghetti”, nếu so entropy giữa cảnh thật và cảnh được tạo ra thì có vẻ sự khác biệt sẽ rất rõ. Rốt cuộc, “trông giống thật” nghĩa là nó khớp với mức entropy mà chúng ta kỳ vọng
AI có thể dễ dàng nâng entropy lên một cách nhân tạo. Cuối cùng sẽ thành một cuộc chiến thông tin, và con người sẽ là nạn nhân
Văn bản có mật độ thông tin quá cao, và các mô hình kiểu GPT lại được huấn luyện để tối thiểu hóa đúng thứ entropy mà bạn đang nói tới
Hơn nữa, AI hoàn toàn có thể được huấn luyện để đánh lừa kiểu phát hiện đó
Gần đây tôi thử tìm kiếm bằng Google, và đúng là kinh khủng.
Tôi muốn một Internet yên tĩnh — nơi bạn đặt câu hỏi thì có câu trả lời, không động cơ, không quảng cáo, chỉ có những câu trả lời chân thành
Phần lớn mọi người có lẽ không thể phân biệt văn bản AI lệch khỏi “giọng mặc định” chỉ từ prompt
Vòng lặp này sẽ tiếp diễn, và nó tương tự cấu trúc GAN (Generative Adversarial Network)
Nhưng trên web thực tế vẫn tràn ngập AI slop.
Tôi thường tìm thông tin mà tính xác thực rất quan trọng, nên so với việc có phát hiện AI hay không, độ tin cậy của nguồn mới quan trọng hơn.
Cuối cùng, điều cốt lõi là ai là người viết bằng chính tên tuổi hay danh tiếng của họ
Tôi không hiểu vì sao một số CEO lại cứng đầu đến vậy. Mọi người ghét nội dung nhân tạo, vậy mà họ vẫn ám ảnh với nó
Ví dụ video này, video này đều được làm bằng kịch bản do GPT viết, minh họa AI và giọng đọc AI.
Trên Reddit cũng vậy, các bài do GPT viết vẫn leo top và mọi người còn khen là “ẩn dụ đẹp”.
Rốt cuộc, rất nhiều người đang thích nội dung AI mà không nhận ra
Như có thể thấy trong issue liên quan, việc loại bỏ hoàn toàn là khó vì hiệu quả kinh tế
Dạo này tìm được nội dung thật quá khó.
Vấn đề không phải chỉ ở bản thân nội dung AI, mà là môi trường khiến những người sáng tạo có tâm bị chìm nghỉm
Phát hiện ngày càng tinh vi hơn, còn AI thì ngày càng xảo quyệt hơn. Một cuộc đấu phát hiện đối đầu né tránh không hồi kết đang tiếp diễn
Tôi ủng hộ mọi nỗ lực ngăn chặn làn sóng AI slop tràn ngập trong kết quả tìm kiếm.
Có cảm giác như spam SEO ngày xưa quay trở lại, chỉ là được bọc gói khác đi thôi
Lý do các công cụ tìm kiếm khác thích thứ này là vì nó giúp củng cố vai trò cửa ngõ truy cập mà không cần tự tạo nội dung
Vì tóm tắt AI đang thay thế thứ nội dung câu click của họ.
Có khi chính họ lại là thế lực đứng sau phong trào lọc này