- Đây là một tiện ích mở rộng trình duyệt được tạo ra để tránh ô nhiễm do nội dung do AI tạo ra, được thiết kế để chỉ tìm kiếm nội dung do con người viết
- Sử dụng Google Search API để chỉ trả về các kết quả được đăng trước ngày 30 tháng 11 năm 2022
- Có thể tải xuống và sử dụng trên Chrome và Firefox
- Dựa trên bối cảnh văn bản, hình ảnh và video do AI tạo ra đã tăng vọt trên internet sau sự xuất hiện của ChatGPT và các mô hình ngôn ngữ lớn khác
- Cung cấp môi trường tìm kiếm đáng tin cậy cho những người dùng muốn chỉ truy cập vào tài liệu do con người tạo ra
Tổng quan về Slop Evader
- Slop Evader là tiện ích mở rộng trình duyệt để né tránh nội dung do AI tạo ra, có thể sử dụng trên Chrome và Firefox
- Người dùng có thể cài đặt tiện ích để lọc bỏ nội dung do AI tạo ra
- Công cụ này chỉ hiển thị trong kết quả tìm kiếm những nội dung được tạo ra trước khi ChatGPT ra mắt (30 tháng 11 năm 2022)
- Công cụ sử dụng Google Search API để giới hạn kết quả theo mốc thời gian
Bối cảnh phát triển
- Sau khi ChatGPT và các mô hình ngôn ngữ lớn (LLM) khác được công bố, lượng văn bản, hình ảnh và video do AI tạo ra trên internet đã tăng mạnh
- Slop Evader được tạo ra nhằm tránh sự ô nhiễm thông tin trực tuyến do nội dung AI gây ra
- Thông qua tiện ích mở rộng này, người dùng có thể chỉ khám phá nội dung do con người trực tiếp viết hoặc tạo ra
Tính năng và ý nghĩa
- Bằng cách giới hạn kết quả tìm kiếm ở các bài đăng trước ngày 30 tháng 11 năm 2022, công cụ giảm thiểu ảnh hưởng của nội dung do AI tạo ra
- Hoạt động dựa trên Google Search API, nên vẫn giữ trải nghiệm sử dụng tương tự môi trường tìm kiếm hiện có
- Trong bối cảnh nội dung AI lan rộng, đây là một công cụ giúp đảm bảo khả năng tiếp cận thông tin lấy con người làm trung tâm
1 bình luận
Ý kiến Hacker News
Đây được cho là một công cụ chỉ tìm kiếm nội dung có từ trước khi ChatGPT ra mắt (30 tháng 11 năm 2022)
Nhưng có vẻ chất lượng tìm kiếm suy giảm đã bắt đầu từ rất lâu trước đó
Không chỉ Google mà mọi công cụ tìm kiếm đều đã tệ đi, và sau đó AI càng đẩy nhanh đà đi xuống ấy
Đặc biệt, việc gượng ép mang UI tìm kiếm của YouTube sang Google Search là một vấn đề
Điều người dùng muốn là kết quả chính xác, chứ không phải “xyz mà người khác đã tìm”, nhưng quảng cáo và các yếu tố câu click chỉ làm UI thêm rối rắm
Ở đây có thể tắt hoàn toàn các tính năng AI
Hiện có khoảng 61 nghìn thành viên, mỗi tháng tăng thêm 2 nghìn (liên kết thống kê)
Khoảng năm 2020 đã có rất nhiều trang SEO đầy nội dung cào lại hoặc spam từ khóa
Cũng có nhiều bài viết được tạo bằng các language model đơn giản hoặc chuỗi Markov
Mỉa mai cách họ dùng ngôn ngữ doanh nghiệp để tô vẽ cho việc khiến cuộc sống của mọi người bất tiện hơn
Chủ yếu để tìm tài liệu liên quan đến lập trình, và kết quả vẫn khá chính xác
Có thể vì kiểu tìm kiếm của tôi đơn giản, nhưng DDG vẫn dùng được
Có người nói “chúng ta đang khai thác ‘token nền thấp’, giống như low-background steel sau Thế chiến II”, và phép so sánh đó cứ ám ảnh tôi mãi
Tôi đã tổng hợp ý này trong Latent Space
Tôi không chắc token do con người tạo ra có thật sự ‘nhiều tín hiệu’ hơn token do AI tạo ra hay không
Theo giải thích trên Wikipedia, sau Hiệp ước cấm thử hạt nhân một phần năm 1963, mức phóng xạ đã đủ thấp
Chúng ta gọi đó là “đứng trên vai người khổng lồ”
Những dự án như thế này làm tôi nhớ đến bối cảnh của Cyberpunk 2077
Internet đầu tiên bị ô nhiễm bởi các AI nguy hiểm, nên người ta dựng một bức tường lửa khổng lồ và tạo ra một Internet mới lấy con người làm trung tâm
Tôi nghĩ có lẽ một ngày nào đó sẽ cần một Internet chỉ dành cho con người
Tất nhiên ngoài đời điều đó rất khó, và tôi hình dung ra một kiểu mạng meatspace-first nơi phải liên tục xác thực mình là con người
Phần lớn nội dung giờ đã chịu ảnh hưởng của AI, và mức chỉ tham khảo khác với lừa đảo copy-paste
Cuối cùng ta phải thích nghi
Tôi nghĩ các mạng tự trị như Mastodon, Discord hay Matrix là ví dụ theo hướng đó
Có một bảng xếp hạng HN hiển thị mức độ dùng em dash (—) từ trước thời ChatGPT
Liên kết
Tính năng này có thể làm được ngay cả khi không có tiện ích mở rộng
Chỉ cần thêm bộ lọc
before:vào tìm kiếm GoogleVí dụ: Happiness before:2022
Tôi không chắc nội dung do AI tạo ra có phải là vấn đề lớn đến vậy không
Phần lớn chỉ là thay thế cho spam SEO kiểu content farm vốn đã tồn tại từ trước
Ngày xưa tôi cũng không đọc loại bài đó, bây giờ chỉ là câu văn trơn tru hơn một chút
Tôi nghĩ chỉ cần giữ vệ sinh tìm kiếm tốt là được
Tuy vậy, ở r/chess trên Reddit có rất nhiều người đăng câu trả lời của ChatGPT như thể do chính họ viết
Sau đó cuộc trao đổi cũng tiếp tục bằng ChatGPT và họ khăng khăng rằng tôi sai
Tương lai kiểu này thật đáng lo
còn bây giờ thì có đến hàng chục cùng một câu trả lời sai, chỉ khác cách diễn đạt
Mọi người tưởng rằng mình vừa tìm ra một đột phá triết học rồi đem đi đăng
Những nơi như /r/localllama cũng đầy spam AI, và một số bài “Show HN” trên HN cũng là portfolio giả do LLM tạo ra
Tôi cũng từng lãng phí thời gian vì những bài như vậy
Giống như các trang công thức nấu ăn, ta còn có thể bỏ qua phần thừa
Nhưng giờ gần như mọi truy vấn tìm kiếm đều bị phủ bởi câu chữ do AI tạo ra
Trước kia có thể dùng truy vấn hiếm để lấy kết quả chính xác, nhưng giờ phải vật lộn qua những trang vô nghĩa
còn giờ thì bài viết của con người bị hút vào dữ liệu huấn luyện LLM và tái sử dụng thành nội dung AI thế hệ tiếp theo
Dù không muốn thì cũng vẫn bị như vậy
Cụm từ “low-background steel của Internet” thật thú vị
Liên kết Wikipedia liên quan
Đây là chuyện tôi gặp khi nghiên cứu bằng ChatGPT
Cuối cùng tôi phải tìm tài liệu do con người viết từ chính tổ chức nguồn để giải quyết
Kiểu việc này xảy ra rất thường ở vùng biên của tri thức
Câu đầu tiên có thể đúng, cũng có thể không
Nhưng chatbot thì rất khó thoát ra khỏi hướng sai ban đầu
nếu kết quả khớp nhau thì xem như khả năng hallucination thấp hơn
Với tìm kiếm hình ảnh thì same.energy khá ổn
Nó đã bị bỏ mặc nhiều năm nhưng vẫn hoạt động, và gần như không có ảnh AI
Bản thân sản phẩm cũng khá tốt
Kết quả tìm kiếm Google vốn đã 90% là rác SEO từ trước thời ChatGPT rồi
Cứ dùng Kagi và chặn các trang SEO là được
Muốn hỏi xem họ có danh sách bộ lọc hay tiêu chí nhận diện nào không