Danh sách đen AI uBlock

(github.com/alvi-se)

6 điểm bởi GN⁺ 2026-02-23 | 1 bình luận | Chia sẻ qua WhatsApp

Dự án danh sách đen công khai nhằm chặn các trang trại nội dung do AI tạo ra trong uBlock Origin
Các website do AI tạo sinh viết thường đầy quảng cáo và liên kết giới thiệu, đồng thời chứa thông tin không đáng tin cậy
Người dùng có thể đăng ký tệp list.txt hoặc tự thêm URL để áp dụng danh sách chặn
Dự án đưa ra cụ thể đặc điểm và tiêu chí nhận diện các trang do AI tạo, đồng thời có thể mở rộng danh sách thông qua Pull Request của cộng tác viên
Có thể dùng như một công cụ thực tế để giảm vấn đề ô nhiễm nội dung AI xuất hiện ở vị trí cao trong kết quả tìm kiếm

Tổng quan dự án

AI uBlock Blacklist cung cấp danh sách chặn nội dung do AI tạo để dùng với tiện ích mở rộng uBlock Origin
- Người dùng có thể nhấp vào liên kết đăng ký Adblock Plus hoặc thêm trực tiếp https://raw.githubusercontent.com/alvi-se/ai-ublock-blacklist/…
Mỗi khi phát hiện một website do AI tạo sinh viết trong quá trình duyệt web, tác giả sẽ thêm thủ công vào danh sách
Dự án không sử dụng công cụ tự động và nêu rõ rằng rất khó xác định nội dung có do AI tạo hay không bằng thuật toán

Mục tiêu dự án

Các website do AI tạo sinh viết thường thiếu thông tin hữu ích và được cấu trúc để kiếm tiền bằng quảng cáo cùng liên kết giới thiệu
Nội dung do AI viết có thể được đăng hàng loạt mà không qua kiểm chứng, nên có thể chứa thông tin nguy hiểm
- Ví dụ, có thể đưa ra lời khuyên nguy hiểm như làm chập mạch, chạy lệnh rm -rf /, hoặc trộn thuốc tẩy với amoniac
Quảng cáo
Vì những lý do đó, nội dung do AI tạo không đáng tin cậy và cần bị chặn
Tác giả là người Ý nên có nhiều website tiếng Ý trong danh sách, và hoan nghênh đóng góp để bổ sung website ở các ngôn ngữ khác

Cách thêm website

Người dùng không có kiến thức kỹ thuật có thể báo cáo các website đáng ngờ thông qua GitHub Issue
Nếu trực tiếp thêm qua Pull Request, có thể chặn theo cấp độ domain hoặc theo đường dẫn blog cụ thể
- Ví dụ: ||example.com/@slopUser^$doc hoặc định dạng ||example.com^$doc
Nếu một tổ chức bán dịch vụ SEO và digital marketing vận hành nhiều trang trại nội dung, dự án khuyến nghị thêm cả các website liên quan

Tiêu chí nhận diện trang trại nội dung AI

Phần mở đầu và kết luận không cần thiết, tiêu đề cường điệu như ‘Comprehensive Guide’, không có liên kết ngoài hoặc nguồn tham khảo, nhiều liên kết giới thiệu
Hàng nghìn bài viết trong thời gian ngắn, thông tin sai lệch (ảo giác), bài đăng sau tháng 11 năm 2022, hình ảnh và logo do AI tạo
Văn bản trình bày cẩu thả, cú pháp Markdown chưa được render, bài viết dài dòng không liên quan đến chủ đề, lặp lại ở top kết quả tìm kiếm
Không có thông tin liên hệ, trang giới thiệu mơ hồ, nội dung ca ngợi AI cũng được nêu là các đặc điểm chính

Sử dụng Google Dorks

Trong trường hợp AI sao chép nguyên văn câu do nó tạo rồi đăng lên, có thể tìm các trang AI bằng cách tìm kiếm cụm từ cụ thể
- Ví dụ: "Sure! Here's an article about" (tiếng Anh), "Certo! Ecco un articolo" (tiếng Ý)
Các trang chứa những cụm từ này sẽ được thêm toàn bộ domain vào danh sách đen

Dự án tương tự

Dự án uBlockOrigin & uBlacklist Huge AI Blocklist ẩn mọi kết quả liên quan đến AI
Dự án này khác ở chỗ vẫn giữ các công cụ AI hợp lệ và chỉ chặn các trang trại nội dung AI

1 bình luận

GN⁺ 2026-02-23

Ý kiến trên Hacker News

Ý tưởng này khá thú vị và tôi cũng định đóng góp vào danh sách, nhưng đã dừng lại khi thấy cụm “Cry about it” trong FAQ
Tôi cho rằng thái độ như vậy là không phù hợp với cách vận hành một danh sách đen công khai. Nó tạo cảm giác người duy trì tin rằng mình không thể sai
- Trang web cá nhân của tôi cũng từng gặp chuyện tương tự. Bạn bè bảo không truy cập được nên tôi tưởng máy chủ có vấn đề, nhưng hóa ra trang của tôi đã bị đưa vào một blocklist nào đó của PiHole
  Tôi đã yêu cầu gỡ chặn nhưng không nhận được phản hồi nào, và đến giờ vẫn còn bị chặn
- Cũng có người cho rằng những lời khiếu nại kiểu này khó mà tin được, giống như yêu cầu gỡ VAC ban
- Với thái độ như vậy, tôi không nghĩ dự án này có khả năng được duy trì sau 5 năm. Những việc như thế này nên do một đội ngũ đã được kiểm chứng như Easylist đảm nhiệm
- Cũng có ý kiến nhắc rằng đừng quên đây là một danh sách uBlock Origin dùng cá nhân
- Nhưng có vẻ giờ nó đã được sửa rồi. Có thể xem commit liên quan ở đây
Theo hướng thực tế hơn, đã xuất hiện một danh sách mới chỉ chặn content farm hoặc các trang chất lượng thấp
Có vẻ đây là phương án thay thế tốt hơn so với các danh sách chặn AI quá rộng trước đây
Xem uBlockOrigin-HUGE-AI-Blocklist
Trên Reddit cũng có thảo luận liên quan khá sôi nổi
- Tôi cảm thấy danh sách cũ gần như chỉ là một danh sách ghét bỏ. Nó còn bao gồm cả những trang công khai vận hành nội dung AI
- Khá thú vị khi danh sách website lại được sắp xếp bằng spreadsheet. Trước đây sau khi thấy một trường hợp tập đoàn truyền thông nhồi nhét SEO, tôi đã tìm các trang tương tự và thêm vào uBlacklist
  Tôi chia sẻ quá trình tìm kiếm và danh sách trong gist của mình
- Tuy nhiên danh sách này đã 5 tháng không được cập nhật
- Cũng có người nói rằng họ đã thêm cả hai danh sách
Càng về sau thì vấn đề false positive càng nghiêm trọng. Tên miền có thể bị bán, website có thể đổi hướng, hoặc nội dung có thể bị xóa
Với thái độ như “Cry about it” thì nó chỉ trở thành một hố đen bôi nhọ mà thôi. Ít nhất phải có cơ chế hết hạn hoặc rà soát lại
uBlock Origin vốn đã có danh sách chặn “AI widget”. Nhờ tính năng này mà tôi vẫn còn dùng Firefox. Trên Chromium thì nó vô dụng
Tôi đồng ý với nguyên tắc, nhưng kiểu thái độ “viết bằng AI là do kỹ năng kém” thì không công bằng với người dùng Grammarly hay người không nói tiếng Anh bản ngữ
- Chưa từng có nhóm nào bị gọi là “Skill issue” mà lại không thấy khó chịu cả
- Tôi thậm chí còn thấy những câu tiếng Anh vụng về hoặc văn phong kiểu bản dịch máy nhân văn và đa dạng hơn so với văn bản do AI tạo ra
  Dù sao thì dự án này nhắm vào content farm, không phải các tác giả cá nhân, nên trọng tâm tranh luận là khác nhau
- Nhưng người tạo danh sách này còn không xóa khỏi danh sách ngay cả khi quyền sở hữu tên miền đã đổi. Ví dụ Whitehouse.com trước đây là trang khiêu dâm nhưng bây giờ thì không còn vậy nữa
- Cũng có ý kiến nói rằng nếu không giỏi tiếng Anh thì cứ dùng máy dịch
- Tôi dùng Grammarly cho công việc, chủ yếu để giữ đúng brand guideline. Nó không biến văn phong thành kiểu AI.
  Có vẻ tác giả đang nhắm vào các trang trại bot AI
Dù vậy, ít nhất trên Internet vẫn chưa xuất hiện whitelist
- Khi thời đại app-centric kết thúc thì mối nguy đó cũng qua đi
Có người đang dùng một công cụ phân biệt liệu bài viết có phải do AI tạo hay không dựa trên tropes, đồng thời khôi phục lại prompt gốc
tropes.fyi/aidr
- Cũng có người chia sẻ liên kết ví dụ và một ví dụ khác, nói rằng đây là ý tưởng khá thú vị
Hướng đi này khá tốt. Tôi muốn có thể chặn đa dạng hơn theo từng loại website
Trong môi trường doanh nghiệp, người ta phân loại website và kiểm soát truy cập thông qua các dịch vụ đánh giá uy tín URL
Tôi nghĩ người dùng cá nhân cũng cần loại hạ tầng được cộng đồng tài trợ như vậy
Ví dụ sẽ rất hay nếu có một quỹ phi lợi nhuận quy mô 1 tỷ USD mỗi năm để xây dựng hệ sinh thái đáng tin cậy cho trình duyệt, VPN, DNS, email, cơ quan chứng thực, v.v.
Cũng có các extension phát hiện câu trả lời AI trên Twitter như botblock.ai
- Nhưng cũng có phản hồi rằng “thà đừng dùng Twitter còn hơn”
- Có vẻ trên thực tế nó không hoạt động tốt. Ví dụ một tài khoản AI quá rõ ràng lại bị đánh giá là 100% con người
  Ảnh minh chứng
- Twitter giờ đã thành một nền tảng quảng cáo 8 USD khi các tài khoản trả phí được đẩy lên đầu
Nếu quảng cáo quá nhiều thì tôi thường đóng trang luôn. Nếu cách sắp xếp quảng cáo hợp lý thì tôi vẫn dùng bình thường
Tôi đã mệt mỏi với cuộc chiến adblock. Hết lần này đến lần khác lại xuất hiện tên plugin mới, cảm giác như một cuộc chạy đua không hồi kết
- Vấn đề là quảng cáo thường xuyên trở thành đường dẫn phát tán mã độc

Danh sách đen AI uBlock

Tổng quan dự án

Mục tiêu dự án

Cách thêm website

Tiêu chí nhận diện trang trại nội dung AI

Sử dụng Google Dorks

Dự án tương tự

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News