5 điểm bởi GN⁺ 2025-11-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • Để làm sạch môi trường web bị ô nhiễm bởi spam do AI tạo và các trang trại nội dung, Kagi Search đã giới thiệu hệ thống phát hiện có sự tham gia của cộng đồng mang tên ‘SlopStop’
  • SlopStop hiển thị “điểm AI slop” theo thời gian thực cho văn bản, hình ảnh và video do AI tạo trong kết quả tìm kiếm, đồng thời cho phép người dùng trực tiếp báo cáo nội dung chất lượng thấp
  • Thông qua cơ chế tự động hạ hạng ở cấp độ tên miềntính năng lọc media do AI tạo, hệ thống tăng cường khả năng hiển thị thông tin đáng tin cậy
  • SlopStop được liên kết với dự án ‘Small Web’, ưu tiên hiển thị các nhà sáng tạo lấy con người làm trung tâm và nội dung chân thực
  • Thông qua đó, Kagi đặt mục tiêu xây dựng bộ dữ liệu AI slop lớn nhất thế giới, và dự kiến sử dụng nó cho các công nghệ phòng vệ trước ảo giác AI và thông tin sai lệch trong tương lai

Định nghĩa AI Slop và phản ứng của Kagi

  • AI slopnội dung AI mang tính lừa dối hoặc có giá trị thấp được tạo ra nhằm thao túng thứ hạng tìm kiếm hoặc thu hút sự chú ý
    • Ví dụ gồm đánh giá giả, chuyên môn giả mạo, thông tin sai, các trang trại nội dung đặt doanh thu làm trọng tâm
  • Kagi không bài xích AI, nhưng khẳng định rằng nội dung AI thay thế sự kết nối và góc nhìn của con người là có hại
  • Triết lý của Kagi là “trải nghiệm tìm kiếm nơi con người nắm quyền kiểm soát”, và trước đây hãng đã hạ hạng các trang chất lượng thấp tập trung vào quảng cáo và tracker
  • SlopStop mở rộng bộ lọc hình ảnh hiện có để phát hiện nội dung do AI tạo trên mọi loại hình như video, bài viết và tên miền

Cách SlopStop hoạt động

  • Kết quả tìm kiếm được bổ sung chức năng hiển thị điểm AI slop, giúp người dùng có thể kiểm tra ngay độ tin cậy của nội dung
  • Người dùng có thể báo cáo nội dung chất lượng thấp trong kết quả web, hình ảnh và video bằng tính năng ‘báo cáo là nội dung do AI tạo’
    • Kagi sẽ xác minh bằng các tín hiệu nội bộ, sau đó tự động hạ hạng những tên miền có tỷ trọng nội dung AI cao
    • Với các tên miền pha trộn, hệ thống chỉ gắn nhãn do AI tạo cho từng trang riêng lẻ
  • Hình ảnh và video do AI tạo sẽ được gắn nhãn và tự động hạ hạng ngay khi được xác nhận; người dùng cũng có thể chọn bộ lọc chặn hoàn toàn media AI
  • CEO Vlad cho biết: “AI slop là mối đe dọa mang tính hiện sinh đối với Internet lấy con người làm trung tâm, và SlopStop là bước đầu tiên để loại bỏ nó”

Sự kết hợp giữa SlopStop và Small Web

  • Tốc độ phát triển của AI rất nhanh, nhưng SlopStop và Small Web cùng hướng tới mục tiêu khôi phục hệ sinh thái web lấy con người làm trung tâm
  • Small Web xây dựng whitelist các nhà sáng tạo đã được xác minh là con người, để ưu tiên hiển thị nội dung chân thực
  • SlopStop càng lọc được nhiều nội dung AI, khả năng hiển thị của nội dung sáng tạo và đậm chất con người càng tăng
  • Hai hệ thống này hoạt động như một cơ chế phòng vệ kép để bảo vệ Internet khỏi sự thương mại hóa và ô nhiễm nhân tạo

Xây dựng và ứng dụng bộ dữ liệu AI Slop

  • SlopStop là một bước tăng cường độ tin cậy cho toàn bộ hệ sinh thái Kagi, kết hợp báo cáo từ cộng đồng và công nghệ phát hiện nội bộ để hướng tới mục tiêu xây dựng bộ dữ liệu tên miền AI slop lớn nhất thế giới
  • Bộ dữ liệu này dự kiến sẽ được dùng để phát triển công nghệ phát hiện nhằm ngăn ảo giác AI, tuyên bố sai sự thật và thông tin sai lệch
  • Kagi dẫn khảo sát của NewsGuard và cho biết 30–41% phản hồi từ các chatbot khác tạo ra câu trả lời sai sự thật
  • Cơ sở dữ liệu này dự kiến sẽ được công khai trong tương lai, và người dùng quan tâm có thể đăng ký để nhận cập nhật

Sự tham gia của người dùng và bảo vệ chất lượng

  • Kagi thúc đẩy phát triển giải pháp cuối cùng mang tính tự động thông qua vận hành SlopStop dựa trên crowdsourcing
  • Người dùng có thể tham gia bằng cách nhấp vào biểu tượng khiên cạnh kết quả tìm kiếm → chọn ‘báo cáo là nội dung do AI tạo’
  • Mọi báo cáo sẽ được đội ngũ đánh giá của Kagi xác minh trước khi phản ánh vào hệ thống, từ đó góp phần cải thiện chất lượng tìm kiếm
  • Kagi cung cấp tài liệu kỹ thuật và diễn đàn liên quan đến SlopStop để giải thích cách hoạt động và mở kênh phản hồi
  • Kagi nhấn mạnh rằng “sự tham gia của mọi người dùng sẽ tạo ra trải nghiệm tìm kiếm đáng tin cậy hơn

1 bình luận

 
GN⁺ 2025-11-14
Ý kiến trên Hacker News
  • Đây thật sự là tin rất thú vị. Mong HN cũng tham khảo tính năng này và thêm một cờ tương tự
    • Tôi đã nhờ @freediver cấp quyền truy cập cơ sở dữ liệu. Sắp được tích hợp vào hcker.news
      Tôi thích cách tiếp cận lấy cộng đồng làm trung tâm của Kagi. Danh sách Small Web được công khai thực sự rất hữu ích.
      Khi áp dụng bộ lọc smallweb trên HN, trang chủ trở nên mới mẻ hơn hẳn
    • Đồng ý
  • HN cũng cần thứ này. Giá mà có một nơi trú ẩn an toàn khỏi kiểu nội dung như thư rác cao cấp
    • Giải pháp rất đơn giản. Chỉ cần yêu cầu xác minh con người cho mọi bình luận. Ví dụ, nộp một giọt máu cho mỗi bình luận
  • Trong tài liệu họ phân biệt slop của hình ảnh, video và “trang web”, nên tôi tò mò liệu có cách nào lọc mạnh tay riêng slop dạng trang web hay không
    Đôi khi có những bài viết sâu sắc nhưng lại gắn ảnh tiêu đề do AI tạo. Nếu phần thân là thật thì tôi không muốn lọc bỏ những bài như vậy. Tôi thắc mắc liệu cách phân loại trong tài liệu có cho phép kiểu lọc tinh vi này không
  • Tôi ước gì có một người thông minh nghiên cứu giúp giả thuyết của tôi. Có thể mấu chốt của việc phát hiện nằm ở việc học sự khác biệt về entropy giữa nội dung do con người viết và nội dung do LLM viết
    Ví dụ như “bài test Will Smith ăn spaghetti”, nếu so entropy giữa cảnh thật và cảnh được tạo ra thì có vẻ sự khác biệt sẽ rất rõ. Rốt cuộc, “trông giống thật” nghĩa là nó khớp với mức entropy mà chúng ta kỳ vọng
    • Tôi không nghĩ có thể dùng AI slop để giải quyết AI slop. Ngay từ trước, quảng cáo và nền kinh tế chú ý đã bị slop hóa, còn AI chỉ làm điều đó lộ rõ hơn thôi.
      AI có thể dễ dàng nâng entropy lên một cách nhân tạo. Cuối cùng sẽ thành một cuộc chiến thông tin, và con người sẽ là nạn nhân
    • Thực ra đó chính là nguyên lý cơ bản của “trình phát hiện AI”. Đó là mô hình được huấn luyện để phân loại nội dung do con người tạo ra so với do LLM tạo ra, nhưng như ai cũng biết thì độ chính xác rất tệ
    • Những thử nghiệm như vậy đã tồn tại rồi. Với hình ảnh thì có tác dụng nhờ artifact của mô hình khuếch tán, nhưng với văn bản thì không hiệu quả.
      Văn bản có mật độ thông tin quá cao, và các mô hình kiểu GPT lại được huấn luyện để tối thiểu hóa đúng thứ entropy mà bạn đang nói tới
    • Có thể hiệu quả để phân biệt ảnh thật với ảnh do AI tạo, nhưng với văn bản thì tôi không nghĩ entropy quan trọng đến vậy.
      Hơn nữa, AI hoàn toàn có thể được huấn luyện để đánh lừa kiểu phát hiện đó
    • Tôi cứ tưởng “bài test Will Smith ăn spaghetti” là trò đùa, nhưng tìm thử mới biết là có thật. Bất ngờ thật
  • Internet chưa chết, nhưng đã bắt đầu có mùi lạ
  • Tôi đã là người dùng trả phí của Kagi suốt 1 năm. Đây là khoản chi đáng tiền nhất của tôi từ trước đến nay.
    Gần đây tôi thử tìm kiếm bằng Google, và đúng là kinh khủng.
    Tôi muốn một Internet yên tĩnh — nơi bạn đặt câu hỏi thì có câu trả lời, không động cơ, không quảng cáo, chỉ có những câu trả lời chân thành
  • Tôi nghĩ cách tiếp cận có thể mở rộng cuối cùng sẽ là để AI nhận diện AI. Tất nhiên vẫn cần đánh giá của con người
    Phần lớn mọi người có lẽ không thể phân biệt văn bản AI lệch khỏi “giọng mặc định” chỉ từ prompt
    • Thế hệ mô hình tiếp theo sẽ tiến hóa bằng cách loại các mẫu bị phân loại là AI ra khỏi dữ liệu huấn luyện.
      Vòng lặp này sẽ tiếp diễn, và nó tương tự cấu trúc GAN (Generative Adversarial Network)
    • Để AI bắt AI nghe giống một ảo tưởng về bài toán alignment kiểu “AI tốt sẽ thắng AI xấu”. Có thể làm được, nhưng phụ thuộc vào quá nhiều giả định
    • Nếu AI có thể phát hiện AI một cách đáng tin thì chuyện này đã được giải quyết từ lâu rồi. Vấn đề cốt lõi là thiếu độ tin cậy
    • Nếu xử lý prompt cẩn thận thì có thể tạo ra văn bản khó bị phát hiện.
      Nhưng trên web thực tế vẫn tràn ngập AI slop.
      Tôi thường tìm thông tin mà tính xác thực rất quan trọng, nên so với việc có phát hiện AI hay không, độ tin cậy của nguồn mới quan trọng hơn.
      Cuối cùng, điều cốt lõi là ai là người viết bằng chính tên tuổi hay danh tiếng của họ
  • Thế giới hiện giờ giống như bị chia làm hai vũ trụ. Một bên là vũ trụ nhồi ép nội dung tạo sinh, bên kia là vũ trụ quyết liệt từ chối nó
    Tôi không hiểu vì sao một số CEO lại cứng đầu đến vậy. Mọi người ghét nội dung nhân tạo, vậy mà họ vẫn ám ảnh với nó
    • Trên YouTube có một lượng khán giả khổng lồ thích nội dung do AI tạo.
      Ví dụ video này, video này đều được làm bằng kịch bản do GPT viết, minh họa AI và giọng đọc AI.
      Trên Reddit cũng vậy, các bài do GPT viết vẫn leo top và mọi người còn khen là “ẩn dụ đẹp”.
      Rốt cuộc, rất nhiều người đang thích nội dung AI mà không nhận ra
    • Sự cố chấp của các CEO phần lớn là do áp lực từ hội đồng quản trị và Wall Street. Thực chất chỉ là những người chưa từng dùng LLM phản ứng theo tín hiệu thị trường
    • Hoàn toàn là ngụy biện chi phí chìm cộng với ám ảnh tăng trưởng. Thứ đang chi phối không phải logic mà là xu hướng và sự sốt ruột của nhà đầu tư
    • Kagi cũng không loại bỏ hoàn toàn LLM. Thực tế họ dùng LLM cho phần tóm tắt tin tức
      Như có thể thấy trong issue liên quan, việc loại bỏ hoàn toàn là khó vì hiệu quả kinh tế
    • Nếu người sáng tạo phải công khai việc dùng AI, thì tôi cũng phải có quyền lọc nó đi.
      Dạo này tìm được nội dung thật quá khó.
      Vấn đề không phải chỉ ở bản thân nội dung AI, mà là môi trường khiến những người sáng tạo có tâm bị chìm nghỉm
  • Tình hình hiện giờ giống như AI đang tự chơi cờ với chính nó.
    Phát hiện ngày càng tinh vi hơn, còn AI thì ngày càng xảo quyệt hơn. Một cuộc đấu phát hiện đối đầu né tránh không hồi kết đang tiếp diễn
  • “Cuộc chiến slop đã bắt đầu”
    Tôi ủng hộ mọi nỗ lực ngăn chặn làn sóng AI slop tràn ngập trong kết quả tìm kiếm.
    Có cảm giác như spam SEO ngày xưa quay trở lại, chỉ là được bọc gói khác đi thôi
    • Lần này nghiêm trọng hơn nhiều. Spam SEO trước đây nhìn vào là nhận ra ngay, còn bây giờ thì tràn ngập rác trông bề ngoài hoàn hảo.
      Lý do các công cụ tìm kiếm khác thích thứ này là vì nó giúp củng cố vai trò cửa ngõ truy cập mà không cần tự tạo nội dung
    • Trớ trêu thay, nhóm ghét nội dung AI nhất lại là giới SEO.
      Vì tóm tắt AI đang thay thế thứ nội dung câu click của họ.
      Có khi chính họ lại là thế lực đứng sau phong trào lọc này