- Trong bối cảnh Internet tràn ngập nội dung chất lượng thấp do AI tạo ra (slop), nhiều hình thức chủ động phản kháng AI đang lan rộng
- Cộng đồng Reddit r/PoisonFountain đang hoạt động với mục tiêu cung cấp cho các trình thu thập dữ liệu AI 1 terabyte dữ liệu đầu độc mỗi ngày vào cuối năm 2026
- Nhiều hình thức phản kháng khác nhau đã xuất hiện, như kỹ thuật đánh lừa công cụ tóm tắt video bằng AI hay cố ý chèn dữ liệu sai lệch trên mạng xã hội
- Bối cảnh dẫn tới sự phản kháng này là thực tế các trình thu thập dữ liệu AI phớt lờ
robots.txt và gây ra mức tải tương đương DDoS lên các website nhỏ
- Có kỳ vọng rằng nếu cảm xúc này dẫn đến những hành động phản kháng ôn hòa và hợp pháp, nó có thể thay đổi cách Thung lũng Silicon thu thập dữ liệu
Cộng đồng đầu độc dữ liệu nhắm vào trình thu thập dữ liệu AI
- Cộng đồng Reddit r/PoisonFountain là một cộng đồng do những người tự nhận là người trong ngành AI lập ra, nhằm khuyến khích càng nhiều người càng tốt cung cấp lượng lớn dữ liệu rác (poison) cho các trình thu thập dữ liệu web
- Mục tiêu là cung cấp cho trình thu thập dữ liệu 1 terabyte dữ liệu đầu độc mỗi ngày vào cuối năm 2026
- Phần lõi của dữ liệu đầu độc được lưu trữ trên rnsaffn.com, đặt xen giữa các liên kết rác đủ hấp dẫn để lôi kéo trình thu thập dữ liệu AI
- Thoạt nhìn trông như mã bình thường, nhưng thực tế có chứa những lỗi tinh vi, khiến mã được tạo ra không thể sử dụng
- Có thể lọc những lỗi này, nhưng chi phí sẽ rất cao ở quy mô lớn
- Vì các công ty AI không thể cải thiện mô hình nếu không có dữ liệu mới do con người tạo ra, chiến lược cốt lõi là tăng thời gian và chi phí của việc đánh cắp dữ liệu
- Miasma là công cụ dùng dữ liệu đầu độc này để cung cấp lượng lớn dữ liệu rác cho bot độc hại, và nhà phát triển mô tả nó là “bữa buffet slop vô tận dành cho những cỗ máy slop”
Hành vi có vấn đề của các trình thu thập dữ liệu AI
Nỗ lực đầu độc công cụ tóm tắt video bằng AI
Hành vi phá hoại AI có chủ đích trên mạng xã hội
- Trên các nền tảng mạng xã hội như Reddit, hành vi cố ý viết thông tin sai lệch để đầu độc dữ liệu huấn luyện AI đang gia tăng
- Ví dụ, có trường hợp đăng thông tin sai rõ ràng rằng trong “Everybody Loves Raymond”, Idris Elba đóng vai mẹ của Raymond
- Con người có thể ngay lập tức nhận ra đó là sai nhờ ngữ cảnh, nhưng các trình quét web tự động lại xem đó là dữ liệu chất lượng do con người tạo ra
- Nếu dữ liệu này được chuyển tới OpenAI hoặc nơi tương tự, sẽ cần thêm tài nguyên để loại bỏ nó khỏi tập dữ liệu huấn luyện
- Đây có thể xem là biến thể hiện đại của việc công nhân dệt thời Cách mạng Công nghiệp phá hủy khung cửi chạy bằng sức máy, và nếu đủ nhiều người làm ô nhiễm không gian công cộng bằng thông tin sai nhắm vào bot, điều đó có thể gây áp lực buộc các công ty AI phải xem xét lại cách thu thập dữ liệu huấn luyện
Sự ác cảm rộng khắp đối với AI
- Mọi người có cảm giác phản cảm với tác động của AI lên thế giới, cụ thể là với ảnh hưởng của nó tới các cộng đồng trực tuyến, môi trường, trường tiểu học và đại học, nhóm có nguy cơ về sức khỏe tâm thần, và sinh kế
- Dù có những người tiêu thụ và tạo ra AI slop, nhưng cả ngoài đời lẫn trên mạng đều có nhiều người ghét và từ chối công nghệ này hơn nhiều
- Hiếm khi cảm xúc thù ghét dẫn đến kết quả tốt, và lập trường ở đây là phản đối các hành vi bạo lực như đá hoặc lật đổ robot giao hàng AI hay ném bom xăng vào nhà Sam Altman
- Tuy vậy, nếu cảm xúc đối với AI được chuyển hóa thành những hành động phản kháng ôn hòa và hợp pháp, nó có thể thật sự làm thay đổi cách hành xử của Thung lũng Silicon
Chuyện hậu kỳ: bài gốc bị sửa sau khi lan truyền trên Hacker News
- Bài viết này đã lên trang đầu của trung tâm tin tức lớn (Hacker News), kéo theo lượng truy cập cực lớn ngoài dự kiến
- Một cuộc tấn công quá tải máy chủ mang tính ác ý đã xảy ra khi một số ít địa chỉ IP gửi hàng nghìn yêu cầu tới trang đó
- Nếu là hosting chia sẻ giá rẻ thì khả năng cao website đã sập hoàn toàn, nên tác giả đã tạm thời chặn lưu lượng tới URL đó để đối phó
- Dù không phải chuyên gia AI, tác giả vẫn bị một số người tham gia bình luận chỉ trích quá mức với yêu cầu về độ chính xác ở mức chuyên gia
- Có bình luận dùng cụm từ “chẳng khá hơn một đám đốt thư viện”, một phản ứng đặc biệt gây thất vọng với một blogger yêu thư viện và việc chia sẻ tri thức
- Mục đích ban đầu chỉ là chia sẻ các liên kết về xu hướng phản AI cho nhóm độc giả nhỏ của blog, và tác giả cho biết nếu biết trước sẽ thu hút sự chú ý tiêu cực trên một nền tảng lớn như vậy thì đã không đăng
- Sau đó tác giả quyết định hạn chế đăng ý kiến cá nhân liên quan đến AI, và sẽ tập trung vào mục tiêu ban đầu của việc viết blog là niềm vui trên web nhỏ (small web)
- Đây là một ví dụ cho thấy thực tế rằng việc bày tỏ ý kiến tự do trên web nhỏ bị co hẹp vì sự lan truyền bùng nổ
5 bình luận
Ý kiến trên Hacker News
Sorry, you have been blockedvà bị CloudFlare chặn. Cảm giác khá mỉa mai khi vừa nói chống AI lại vừa dựa vào MITM và các cổng kiểm soát tập trung, đồng thời hạn chế cả khách truy cập là người thậtNgoài cách làm ô nhiễm dữ liệu mà AI dùng để học, còn có cách phản kháng nào khác không?
Chẳng hạn như không tiêu thụ content do AI tạo ra...
Tôi cũng đã nghĩ khi đọc bài này rằng liệu vô tình nó có trở thành một kiểu poisoning đối với con người hay không.
Không rõ vấn đề phát sinh ở đâu, nhưng sau
낌,봄,됨,짐lại đang bị gắn thêm음không phù hợp. Liệu đây cũng là poisoning chăng ;)Không rõ là mô hình đã thay đổi nhẹ hay sao, nhưng cùng một prompt lại bị hoạt động sai. Tôi đã sửa phần này.