- Dự án danh sách đen công khai nhằm chặn các trang trại nội dung do AI tạo ra trong uBlock Origin
- Các website do AI tạo sinh viết thường đầy quảng cáo và liên kết giới thiệu, đồng thời chứa thông tin không đáng tin cậy
- Người dùng có thể đăng ký tệp
list.txt hoặc tự thêm URL để áp dụng danh sách chặn
- Dự án đưa ra cụ thể đặc điểm và tiêu chí nhận diện các trang do AI tạo, đồng thời có thể mở rộng danh sách thông qua Pull Request của cộng tác viên
- Có thể dùng như một công cụ thực tế để giảm vấn đề ô nhiễm nội dung AI xuất hiện ở vị trí cao trong kết quả tìm kiếm
Tổng quan dự án
- AI uBlock Blacklist cung cấp danh sách chặn nội dung do AI tạo để dùng với tiện ích mở rộng uBlock Origin
- Mỗi khi phát hiện một website do AI tạo sinh viết trong quá trình duyệt web, tác giả sẽ thêm thủ công vào danh sách
- Dự án không sử dụng công cụ tự động và nêu rõ rằng rất khó xác định nội dung có do AI tạo hay không bằng thuật toán
Mục tiêu dự án
- Các website do AI tạo sinh viết thường thiếu thông tin hữu ích và được cấu trúc để kiếm tiền bằng quảng cáo cùng liên kết giới thiệu
- Nội dung do AI viết có thể được đăng hàng loạt mà không qua kiểm chứng, nên có thể chứa thông tin nguy hiểm
- Ví dụ, có thể đưa ra lời khuyên nguy hiểm như làm chập mạch, chạy lệnh
rm -rf /, hoặc trộn thuốc tẩy với amoniac
- Vì những lý do đó, nội dung do AI tạo không đáng tin cậy và cần bị chặn
- Tác giả là người Ý nên có nhiều website tiếng Ý trong danh sách, và hoan nghênh đóng góp để bổ sung website ở các ngôn ngữ khác
Cách thêm website
- Người dùng không có kiến thức kỹ thuật có thể báo cáo các website đáng ngờ thông qua GitHub Issue
- Nếu trực tiếp thêm qua Pull Request, có thể chặn theo cấp độ domain hoặc theo đường dẫn blog cụ thể
- Ví dụ:
||example.com/@slopUser^$doc hoặc định dạng ||example.com^$doc
- Nếu một tổ chức bán dịch vụ SEO và digital marketing vận hành nhiều trang trại nội dung, dự án khuyến nghị thêm cả các website liên quan
Tiêu chí nhận diện trang trại nội dung AI
- Phần mở đầu và kết luận không cần thiết, tiêu đề cường điệu như ‘Comprehensive Guide’, không có liên kết ngoài hoặc nguồn tham khảo, nhiều liên kết giới thiệu
- Hàng nghìn bài viết trong thời gian ngắn, thông tin sai lệch (ảo giác), bài đăng sau tháng 11 năm 2022, hình ảnh và logo do AI tạo
- Văn bản trình bày cẩu thả, cú pháp Markdown chưa được render, bài viết dài dòng không liên quan đến chủ đề, lặp lại ở top kết quả tìm kiếm
- Không có thông tin liên hệ, trang giới thiệu mơ hồ, nội dung ca ngợi AI cũng được nêu là các đặc điểm chính
Sử dụng Google Dorks
- Trong trường hợp AI sao chép nguyên văn câu do nó tạo rồi đăng lên, có thể tìm các trang AI bằng cách tìm kiếm cụm từ cụ thể
- Ví dụ:
"Sure! Here's an article about" (tiếng Anh), "Certo! Ecco un articolo" (tiếng Ý)
- Các trang chứa những cụm từ này sẽ được thêm toàn bộ domain vào danh sách đen
Dự án tương tự
1 bình luận
Ý kiến trên Hacker News
Ý tưởng này khá thú vị và tôi cũng định đóng góp vào danh sách, nhưng đã dừng lại khi thấy cụm “Cry about it” trong FAQ
Tôi cho rằng thái độ như vậy là không phù hợp với cách vận hành một danh sách đen công khai. Nó tạo cảm giác người duy trì tin rằng mình không thể sai
Tôi đã yêu cầu gỡ chặn nhưng không nhận được phản hồi nào, và đến giờ vẫn còn bị chặn
Theo hướng thực tế hơn, đã xuất hiện một danh sách mới chỉ chặn content farm hoặc các trang chất lượng thấp
Có vẻ đây là phương án thay thế tốt hơn so với các danh sách chặn AI quá rộng trước đây
Xem uBlockOrigin-HUGE-AI-Blocklist
Trên Reddit cũng có thảo luận liên quan khá sôi nổi
Tôi chia sẻ quá trình tìm kiếm và danh sách trong gist của mình
Càng về sau thì vấn đề false positive càng nghiêm trọng. Tên miền có thể bị bán, website có thể đổi hướng, hoặc nội dung có thể bị xóa
Với thái độ như “Cry about it” thì nó chỉ trở thành một hố đen bôi nhọ mà thôi. Ít nhất phải có cơ chế hết hạn hoặc rà soát lại
uBlock Origin vốn đã có danh sách chặn “AI widget”. Nhờ tính năng này mà tôi vẫn còn dùng Firefox. Trên Chromium thì nó vô dụng
Tôi đồng ý với nguyên tắc, nhưng kiểu thái độ “viết bằng AI là do kỹ năng kém” thì không công bằng với người dùng Grammarly hay người không nói tiếng Anh bản ngữ
Dù sao thì dự án này nhắm vào content farm, không phải các tác giả cá nhân, nên trọng tâm tranh luận là khác nhau
Có vẻ tác giả đang nhắm vào các trang trại bot AI
Dù vậy, ít nhất trên Internet vẫn chưa xuất hiện whitelist
Có người đang dùng một công cụ phân biệt liệu bài viết có phải do AI tạo hay không dựa trên tropes, đồng thời khôi phục lại prompt gốc
tropes.fyi/aidr
Hướng đi này khá tốt. Tôi muốn có thể chặn đa dạng hơn theo từng loại website
Trong môi trường doanh nghiệp, người ta phân loại website và kiểm soát truy cập thông qua các dịch vụ đánh giá uy tín URL
Tôi nghĩ người dùng cá nhân cũng cần loại hạ tầng được cộng đồng tài trợ như vậy
Ví dụ sẽ rất hay nếu có một quỹ phi lợi nhuận quy mô 1 tỷ USD mỗi năm để xây dựng hệ sinh thái đáng tin cậy cho trình duyệt, VPN, DNS, email, cơ quan chứng thực, v.v.
Cũng có các extension phát hiện câu trả lời AI trên Twitter như botblock.ai
Ảnh minh chứng
Nếu quảng cáo quá nhiều thì tôi thường đóng trang luôn. Nếu cách sắp xếp quảng cáo hợp lý thì tôi vẫn dùng bình thường
Tôi đã mệt mỏi với cuộc chiến adblock. Hết lần này đến lần khác lại xuất hiện tên plugin mới, cảm giác như một cuộc chạy đua không hồi kết