Công cụ chỉ tìm kiếm nội dung được tạo trước khi ChatGPT ra mắt

(tegabrain.com)

16 điểm bởi GN⁺ 2025-12-02 | 1 bình luận | Chia sẻ qua WhatsApp

Đây là một tiện ích mở rộng trình duyệt được tạo ra để tránh ô nhiễm do nội dung do AI tạo ra, được thiết kế để chỉ tìm kiếm nội dung do con người viết
Sử dụng Google Search API để chỉ trả về các kết quả được đăng trước ngày 30 tháng 11 năm 2022
Có thể tải xuống và sử dụng trên Chrome và Firefox
Dựa trên bối cảnh văn bản, hình ảnh và video do AI tạo ra đã tăng vọt trên internet sau sự xuất hiện của ChatGPT và các mô hình ngôn ngữ lớn khác
Cung cấp môi trường tìm kiếm đáng tin cậy cho những người dùng muốn chỉ truy cập vào tài liệu do con người tạo ra

Tổng quan về Slop Evader

Slop Evader là tiện ích mở rộng trình duyệt để né tránh nội dung do AI tạo ra, có thể sử dụng trên Chrome và Firefox
- Người dùng có thể cài đặt tiện ích để lọc bỏ nội dung do AI tạo ra
Công cụ này chỉ hiển thị trong kết quả tìm kiếm những nội dung được tạo ra trước khi ChatGPT ra mắt (30 tháng 11 năm 2022)
- Công cụ sử dụng Google Search API để giới hạn kết quả theo mốc thời gian
Quảng cáo

Bối cảnh phát triển

Sau khi ChatGPT và các mô hình ngôn ngữ lớn (LLM) khác được công bố, lượng văn bản, hình ảnh và video do AI tạo ra trên internet đã tăng mạnh
Slop Evader được tạo ra nhằm tránh sự ô nhiễm thông tin trực tuyến do nội dung AI gây ra
Thông qua tiện ích mở rộng này, người dùng có thể chỉ khám phá nội dung do con người trực tiếp viết hoặc tạo ra

Tính năng và ý nghĩa

Bằng cách giới hạn kết quả tìm kiếm ở các bài đăng trước ngày 30 tháng 11 năm 2022, công cụ giảm thiểu ảnh hưởng của nội dung do AI tạo ra
Hoạt động dựa trên Google Search API, nên vẫn giữ trải nghiệm sử dụng tương tự môi trường tìm kiếm hiện có
Trong bối cảnh nội dung AI lan rộng, đây là một công cụ giúp đảm bảo khả năng tiếp cận thông tin lấy con người làm trung tâm

1 bình luận

GN⁺ 2025-12-02

Ý kiến Hacker News

Đây được cho là một công cụ chỉ tìm kiếm nội dung có từ trước khi ChatGPT ra mắt (30 tháng 11 năm 2022)
Nhưng có vẻ chất lượng tìm kiếm suy giảm đã bắt đầu từ rất lâu trước đó
Không chỉ Google mà mọi công cụ tìm kiếm đều đã tệ đi, và sau đó AI càng đẩy nhanh đà đi xuống ấy
Đặc biệt, việc gượng ép mang UI tìm kiếm của YouTube sang Google Search là một vấn đề
Điều người dùng muốn là kết quả chính xác, chứ không phải “xyz mà người khác đã tìm”, nhưng quảng cáo và các yếu tố câu click chỉ làm UI thêm rối rắm
- Muốn hỏi mọi người có biết công cụ tìm kiếm Kagi không
  Ở đây có thể tắt hoàn toàn các tính năng AI
  Hiện có khoảng 61 nghìn thành viên, mỗi tháng tăng thêm 2 nghìn (liên kết thống kê)
- Thực ra nội dung tạo tự động đã tồn tại từ trước ChatGPT
  Khoảng năm 2020 đã có rất nhiều trang SEO đầy nội dung cào lại hoặc spam từ khóa
  Cũng có nhiều bài viết được tạo bằng các language model đơn giản hoặc chuỗi Markov
- Nhại lại câu “Google made the search results worse”, rồi tung ra các trò đùa autocomplete như “worse results near me”, “best worse results”
- Chỉ ra rằng mục tiêu của Google không phải là giúp người dùng tìm thông tin mà là tăng thời gian lưu lại
  Mỉa mai cách họ dùng ngôn ngữ doanh nghiệp để tô vẽ cho việc khiến cuộc sống của mọi người bất tiện hơn
- Tôi đã dùng DuckDuckGo hơn 10 năm rồi
  Chủ yếu để tìm tài liệu liên quan đến lập trình, và kết quả vẫn khá chính xác
  Có thể vì kiểu tìm kiếm của tôi đơn giản, nhưng DDG vẫn dùng được
Có người nói “chúng ta đang khai thác ‘token nền thấp’, giống như low-background steel sau Thế chiến II”, và phép so sánh đó cứ ám ảnh tôi mãi
Tôi đã tổng hợp ý này trong Latent Space
Tôi không chắc token do con người tạo ra có thật sự ‘nhiều tín hiệu’ hơn token do AI tạo ra hay không
- Thực ra giờ low-background steel không còn cần thiết nữa
  Theo giải thích trên Wikipedia, sau Hiệp ước cấm thử hạt nhân một phần năm 1963, mức phóng xạ đã đủ thấp
- Dạo này dữ liệu tổng hợp đã quá phổ biến nên khái niệm này cũng không còn mới
- Tiết lộ rằng “người nói câu đó chính là tôi, swyx”
- Các thế hệ con người luôn xây trên di sản không hoàn hảo của thế hệ trước
  Chúng ta gọi đó là “đứng trên vai người khổng lồ”
Những dự án như thế này làm tôi nhớ đến bối cảnh của Cyberpunk 2077
Internet đầu tiên bị ô nhiễm bởi các AI nguy hiểm, nên người ta dựng một bức tường lửa khổng lồ và tạo ra một Internet mới lấy con người làm trung tâm
Tôi nghĩ có lẽ một ngày nào đó sẽ cần một Internet chỉ dành cho con người
Tất nhiên ngoài đời điều đó rất khó, và tôi hình dung ra một kiểu mạng meatspace-first nơi phải liên tục xác thực mình là con người
- Vấn đề là không thể xác minh nội dung đó có thật sự xuất phát từ suy nghĩ của con người hay không
  Phần lớn nội dung giờ đã chịu ảnh hưởng của AI, và mức chỉ tham khảo khác với lừa đảo copy-paste
- Như Nick Bostrom từng nói, một khi công nghệ gây xáo trộn nền văn minh đã xuất hiện thì không thể đảo ngược
  Cuối cùng ta phải thích nghi
  Tôi nghĩ các mạng tự trị như Mastodon, Discord hay Matrix là ví dụ theo hướng đó
- Mọi người đã đang chuyển sang các nhóm kín như Signal, WhatsApp và Telegram
- Bộ ba Starfish của Peter Watts hay Anathem của Neal Stephenson cũng có bối cảnh tương tự
- Dù có một “Internet chỉ dành cho con người”, nếu con người vẫn bị AI ảnh hưởng thì điều đó cũng chẳng còn ý nghĩa
Có một bảng xếp hạng HN hiển thị mức độ dùng em dash (—) từ trước thời ChatGPT
Liên kết
- Có người đề xuất nên tính cả những người dùng double hyphen (--)
- Xem bình luận của người đứng đầu thì thấy họ cũng có thói quen dùng backtick (`) thay cho dấu nháy đơn
- Cũng đùa rằng nên quan tâm thêm đến người dùng en dash (–)
Tính năng này có thể làm được ngay cả khi không có tiện ích mở rộng
Chỉ cần thêm bộ lọc before: vào tìm kiếm Google
Ví dụ: Happiness before:2022
Tôi không chắc nội dung do AI tạo ra có phải là vấn đề lớn đến vậy không
Phần lớn chỉ là thay thế cho spam SEO kiểu content farm vốn đã tồn tại từ trước
Ngày xưa tôi cũng không đọc loại bài đó, bây giờ chỉ là câu văn trơn tru hơn một chút
Tôi nghĩ chỉ cần giữ vệ sinh tìm kiếm tốt là được
Tuy vậy, ở r/chess trên Reddit có rất nhiều người đăng câu trả lời của ChatGPT như thể do chính họ viết
- Một đồng nghiệp đã gửi cho tôi báo cáo lỗi viết bằng ChatGPT, nhưng lại chẩn đoán sai hoàn toàn vấn đề
  Sau đó cuộc trao đổi cũng tiếp tục bằng ChatGPT và họ khăng khăng rằng tôi sai
  Tương lai kiểu này thật đáng lo
- Trước đây chỉ có một hai câu trả lời sai nên dễ lọc ra,
  còn bây giờ thì có đến hàng chục cùng một câu trả lời sai, chỉ khác cách diễn đạt
- Ngay cả các subreddit khoa học và công nghệ cũng tràn ngập bài đăng lại từ ChatGPT
  Mọi người tưởng rằng mình vừa tìm ra một đột phá triết học rồi đem đi đăng
  Những nơi như /r/localllama cũng đầy spam AI, và một số bài “Show HN” trên HN cũng là portfolio giả do LLM tạo ra
  Tôi cũng từng lãng phí thời gian vì những bài như vậy
- Spam SEO ngày xưa dù sao vẫn dựa trên sự thật
  Giống như các trang công thức nấu ăn, ta còn có thể bỏ qua phần thừa
  Nhưng giờ gần như mọi truy vấn tìm kiếm đều bị phủ bởi câu chữ do AI tạo ra
  Trước kia có thể dùng truy vấn hiếm để lấy kết quả chính xác, nhưng giờ phải vật lộn qua những trang vô nghĩa
- Có người phản biện rằng ngày xưa chỉ cần viết bài hay thì công cụ tìm kiếm sẽ tự tìm ra,
  còn giờ thì bài viết của con người bị hút vào dữ liệu huấn luyện LLM và tái sử dụng thành nội dung AI thế hệ tiếp theo
  Dù không muốn thì cũng vẫn bị như vậy
Cụm từ “low-background steel của Internet” thật thú vị
Liên kết Wikipedia liên quan
- Nửa năm trước chủ đề này cũng từng được nhắc tới trên HN
Đây là chuyện tôi gặp khi nghiên cứu bằng ChatGPT
- Nó hallucinate câu trả lời sai với vẻ rất tự tin
- Rồi lưu nội dung đó vào bộ nhớ và tiếp tục duy trì nó
- Khi tôi hỏi nguồn, nó tự trích dẫn chính mình bằng hai bài báo giả do AI tạo ra
  Cuối cùng tôi phải tìm tài liệu do con người viết từ chính tổ chức nguồn để giải quyết
  Kiểu việc này xảy ra rất thường ở vùng biên của tri thức
- AI giống như đang lục các câu trả lời trên Stack Overflow
  Câu đầu tiên có thể đúng, cũng có thể không
  Nhưng chatbot thì rất khó thoát ra khỏi hướng sai ban đầu
- Một cách đơn giản là hỏi cùng một câu cho 3 LLM khác nhau,
  nếu kết quả khớp nhau thì xem như khả năng hallucination thấp hơn
Với tìm kiếm hình ảnh thì same.energy khá ổn
Nó đã bị bỏ mặc nhiều năm nhưng vẫn hoạt động, và gần như không có ảnh AI
Bản thân sản phẩm cũng khá tốt
Kết quả tìm kiếm Google vốn đã 90% là rác SEO từ trước thời ChatGPT rồi
Cứ dùng Kagi và chặn các trang SEO là được
- Nhưng tôi tò mò Kagi phân biệt trang SEO bằng cách nào
  Muốn hỏi xem họ có danh sách bộ lọc hay tiêu chí nhận diện nào không

Công cụ chỉ tìm kiếm nội dung được tạo trước khi ChatGPT ra mắt

Tổng quan về Slop Evader

Bối cảnh phát triển

Tính năng và ý nghĩa

Bài viết liên quan

1 bình luận

Ý kiến Hacker News