6 điểm bởi GN⁺ 2026-02-23 | 1 bình luận | Chia sẻ qua WhatsApp
  • Dự án danh sách đen công khai nhằm chặn các trang trại nội dung do AI tạo ra trong uBlock Origin
  • Các website do AI tạo sinh viết thường đầy quảng cáo và liên kết giới thiệu, đồng thời chứa thông tin không đáng tin cậy
  • Người dùng có thể đăng ký tệp list.txt hoặc tự thêm URL để áp dụng danh sách chặn
  • Dự án đưa ra cụ thể đặc điểm và tiêu chí nhận diện các trang do AI tạo, đồng thời có thể mở rộng danh sách thông qua Pull Request của cộng tác viên
  • Có thể dùng như một công cụ thực tế để giảm vấn đề ô nhiễm nội dung AI xuất hiện ở vị trí cao trong kết quả tìm kiếm

Tổng quan dự án

  • AI uBlock Blacklist cung cấp danh sách chặn nội dung do AI tạo để dùng với tiện ích mở rộng uBlock Origin
  • Mỗi khi phát hiện một website do AI tạo sinh viết trong quá trình duyệt web, tác giả sẽ thêm thủ công vào danh sách
  • Dự án không sử dụng công cụ tự động và nêu rõ rằng rất khó xác định nội dung có do AI tạo hay không bằng thuật toán

Mục tiêu dự án

  • Các website do AI tạo sinh viết thường thiếu thông tin hữu ích và được cấu trúc để kiếm tiền bằng quảng cáo cùng liên kết giới thiệu
  • Nội dung do AI viết có thể được đăng hàng loạt mà không qua kiểm chứng, nên có thể chứa thông tin nguy hiểm
    • Ví dụ, có thể đưa ra lời khuyên nguy hiểm như làm chập mạch, chạy lệnh rm -rf /, hoặc trộn thuốc tẩy với amoniac
  • Vì những lý do đó, nội dung do AI tạo không đáng tin cậy và cần bị chặn
  • Tác giả là người Ý nên có nhiều website tiếng Ý trong danh sách, và hoan nghênh đóng góp để bổ sung website ở các ngôn ngữ khác

Cách thêm website

  • Người dùng không có kiến thức kỹ thuật có thể báo cáo các website đáng ngờ thông qua GitHub Issue
  • Nếu trực tiếp thêm qua Pull Request, có thể chặn theo cấp độ domain hoặc theo đường dẫn blog cụ thể
    • Ví dụ: ||example.com/@slopUser^$doc hoặc định dạng ||example.com^$doc
  • Nếu một tổ chức bán dịch vụ SEO và digital marketing vận hành nhiều trang trại nội dung, dự án khuyến nghị thêm cả các website liên quan

Tiêu chí nhận diện trang trại nội dung AI

  • Phần mở đầu và kết luận không cần thiết, tiêu đề cường điệu như ‘Comprehensive Guide’, không có liên kết ngoài hoặc nguồn tham khảo, nhiều liên kết giới thiệu
  • Hàng nghìn bài viết trong thời gian ngắn, thông tin sai lệch (ảo giác), bài đăng sau tháng 11 năm 2022, hình ảnh và logo do AI tạo
  • Văn bản trình bày cẩu thả, cú pháp Markdown chưa được render, bài viết dài dòng không liên quan đến chủ đề, lặp lại ở top kết quả tìm kiếm
  • Không có thông tin liên hệ, trang giới thiệu mơ hồ, nội dung ca ngợi AI cũng được nêu là các đặc điểm chính

Sử dụng Google Dorks

  • Trong trường hợp AI sao chép nguyên văn câu do nó tạo rồi đăng lên, có thể tìm các trang AI bằng cách tìm kiếm cụm từ cụ thể
    • Ví dụ: "Sure! Here's an article about" (tiếng Anh), "Certo! Ecco un articolo" (tiếng Ý)
  • Các trang chứa những cụm từ này sẽ được thêm toàn bộ domain vào danh sách đen

Dự án tương tự

  • Dự án uBlockOrigin & uBlacklist Huge AI Blocklist ẩn mọi kết quả liên quan đến AI
  • Dự án này khác ở chỗ vẫn giữ các công cụ AI hợp lệ và chỉ chặn các trang trại nội dung AI

1 bình luận

 
GN⁺ 2026-02-23
Ý kiến trên Hacker News
  • Ý tưởng này khá thú vị và tôi cũng định đóng góp vào danh sách, nhưng đã dừng lại khi thấy cụm “Cry about it” trong FAQ
    Tôi cho rằng thái độ như vậy là không phù hợp với cách vận hành một danh sách đen công khai. Nó tạo cảm giác người duy trì tin rằng mình không thể sai

    • Trang web cá nhân của tôi cũng từng gặp chuyện tương tự. Bạn bè bảo không truy cập được nên tôi tưởng máy chủ có vấn đề, nhưng hóa ra trang của tôi đã bị đưa vào một blocklist nào đó của PiHole
      Tôi đã yêu cầu gỡ chặn nhưng không nhận được phản hồi nào, và đến giờ vẫn còn bị chặn
    • Cũng có người cho rằng những lời khiếu nại kiểu này khó mà tin được, giống như yêu cầu gỡ VAC ban
    • Với thái độ như vậy, tôi không nghĩ dự án này có khả năng được duy trì sau 5 năm. Những việc như thế này nên do một đội ngũ đã được kiểm chứng như Easylist đảm nhiệm
    • Cũng có ý kiến nhắc rằng đừng quên đây là một danh sách uBlock Origin dùng cá nhân
    • Nhưng có vẻ giờ nó đã được sửa rồi. Có thể xem commit liên quan ở đây
  • Theo hướng thực tế hơn, đã xuất hiện một danh sách mới chỉ chặn content farm hoặc các trang chất lượng thấp
    Có vẻ đây là phương án thay thế tốt hơn so với các danh sách chặn AI quá rộng trước đây
    Xem uBlockOrigin-HUGE-AI-Blocklist
    Trên Reddit cũng có thảo luận liên quan khá sôi nổi

    • Tôi cảm thấy danh sách cũ gần như chỉ là một danh sách ghét bỏ. Nó còn bao gồm cả những trang công khai vận hành nội dung AI
    • Khá thú vị khi danh sách website lại được sắp xếp bằng spreadsheet. Trước đây sau khi thấy một trường hợp tập đoàn truyền thông nhồi nhét SEO, tôi đã tìm các trang tương tự và thêm vào uBlacklist
      Tôi chia sẻ quá trình tìm kiếm và danh sách trong gist của mình
    • Tuy nhiên danh sách này đã 5 tháng không được cập nhật
    • Cũng có người nói rằng họ đã thêm cả hai danh sách
  • Càng về sau thì vấn đề false positive càng nghiêm trọng. Tên miền có thể bị bán, website có thể đổi hướng, hoặc nội dung có thể bị xóa
    Với thái độ như “Cry about it” thì nó chỉ trở thành một hố đen bôi nhọ mà thôi. Ít nhất phải có cơ chế hết hạn hoặc rà soát lại

  • uBlock Origin vốn đã có danh sách chặn “AI widget”. Nhờ tính năng này mà tôi vẫn còn dùng Firefox. Trên Chromium thì nó vô dụng

  • Tôi đồng ý với nguyên tắc, nhưng kiểu thái độ “viết bằng AI là do kỹ năng kém” thì không công bằng với người dùng Grammarly hay người không nói tiếng Anh bản ngữ

    • Chưa từng có nhóm nào bị gọi là “Skill issue” mà lại không thấy khó chịu cả
    • Tôi thậm chí còn thấy những câu tiếng Anh vụng về hoặc văn phong kiểu bản dịch máy nhân văn và đa dạng hơn so với văn bản do AI tạo ra
      Dù sao thì dự án này nhắm vào content farm, không phải các tác giả cá nhân, nên trọng tâm tranh luận là khác nhau
    • Nhưng người tạo danh sách này còn không xóa khỏi danh sách ngay cả khi quyền sở hữu tên miền đã đổi. Ví dụ Whitehouse.com trước đây là trang khiêu dâm nhưng bây giờ thì không còn vậy nữa
    • Cũng có ý kiến nói rằng nếu không giỏi tiếng Anh thì cứ dùng máy dịch
    • Tôi dùng Grammarly cho công việc, chủ yếu để giữ đúng brand guideline. Nó không biến văn phong thành kiểu AI.
      Có vẻ tác giả đang nhắm vào các trang trại bot AI
  • Dù vậy, ít nhất trên Internet vẫn chưa xuất hiện whitelist

    • Khi thời đại app-centric kết thúc thì mối nguy đó cũng qua đi
  • Có người đang dùng một công cụ phân biệt liệu bài viết có phải do AI tạo hay không dựa trên tropes, đồng thời khôi phục lại prompt gốc
    tropes.fyi/aidr

  • Hướng đi này khá tốt. Tôi muốn có thể chặn đa dạng hơn theo từng loại website
    Trong môi trường doanh nghiệp, người ta phân loại website và kiểm soát truy cập thông qua các dịch vụ đánh giá uy tín URL
    Tôi nghĩ người dùng cá nhân cũng cần loại hạ tầng được cộng đồng tài trợ như vậy
    Ví dụ sẽ rất hay nếu có một quỹ phi lợi nhuận quy mô 1 tỷ USD mỗi năm để xây dựng hệ sinh thái đáng tin cậy cho trình duyệt, VPN, DNS, email, cơ quan chứng thực, v.v.

  • Cũng có các extension phát hiện câu trả lời AI trên Twitter như botblock.ai

    • Nhưng cũng có phản hồi rằng “thà đừng dùng Twitter còn hơn”
    • Có vẻ trên thực tế nó không hoạt động tốt. Ví dụ một tài khoản AI quá rõ ràng lại bị đánh giá là 100% con người
      Ảnh minh chứng
    • Twitter giờ đã thành một nền tảng quảng cáo 8 USD khi các tài khoản trả phí được đẩy lên đầu
  • Nếu quảng cáo quá nhiều thì tôi thường đóng trang luôn. Nếu cách sắp xếp quảng cáo hợp lý thì tôi vẫn dùng bình thường
    Tôi đã mệt mỏi với cuộc chiến adblock. Hết lần này đến lần khác lại xuất hiện tên plugin mới, cảm giác như một cuộc chạy đua không hồi kết

    • Vấn đề là quảng cáo thường xuyên trở thành đường dẫn phát tán mã độc