Sự phản kháng đối với AI đang gia tăng
(stephvee.ca)- Trong bối cảnh Internet tràn ngập nội dung chất lượng thấp do AI tạo ra (slop), nhiều phong trào chủ động phản kháng AI đang lan rộng
- Cộng đồng Reddit r/PoisonFountain đang hoạt động với mục tiêu cung cấp 1 terabyte dữ liệu nhiễm độc mỗi ngày cho các AI crawler vào cuối năm 2026
- Nhiều hình thức phản kháng đã xuất hiện, như kỹ thuật đánh lừa công cụ tóm tắt video bằng AI hoặc cố ý chèn dữ liệu sai lệch trên mạng xã hội
- Bối cảnh của sự phản kháng này là thực tế các AI crawler phớt lờ robots.txt và gây ra mức tải tương đương DDoS lên các website nhỏ
- Có kỳ vọng rằng nếu cảm xúc này dẫn tới những hành động phản kháng ôn hòa và hợp pháp, nó có thể thay đổi cách Thung lũng Silicon thu thập dữ liệu
Cộng đồng nhiễm độc dữ liệu nhắm vào AI crawler
- Cộng đồng Reddit r/PoisonFountain là nơi do những người tự nhận là người trong ngành AI lập ra, nhằm khuyến khích càng nhiều người càng tốt cung cấp lượng lớn dữ liệu rác (poison) cho web crawler
- Mục tiêu là cung cấp 1 terabyte dữ liệu nhiễm độc mỗi ngày cho crawler vào cuối năm 2026
- Phần lõi của dữ liệu nhiễm độc được lưu trữ tại rnsaffn.com, được đặt xen giữa các liên kết rác đủ sức hấp dẫn với AI crawler
- Thoạt nhìn trông giống mã bình thường, nhưng thực tế có chứa các lỗi tinh vi, khiến mã sinh ra không thể sử dụng
- Có thể lọc các lỗi này, nhưng ở quy mô lớn sẽ rất tốn kém
- Do các công ty AI không thể cải thiện mô hình nếu thiếu dữ liệu mới do con người tạo ra, chiến lược cốt lõi là tăng thời gian và chi phí của việc đánh cắp dữ liệu
- Miasma là công cụ tận dụng dữ liệu nhiễm độc này để cung cấp lượng lớn rác cho bot độc hại; nhà phát triển mô tả nó là "một bữa tiệc slop bất tận dành cho những cỗ máy slop"
Hành vi có vấn đề của AI crawler
- Các nhóm vận hành AI crawler đang thường xuyên gây ra mức tải tương đương DDoS lên các website nhỏ, làm tăng chi phí hosting của mọi người
- Không tuân thủ robots.txt và cũng thường xuyên ẩn crawler sau proxy dân dụng
- Nếu không thể thu thập dữ liệu huấn luyện một cách có đạo đức, thì không có lý do gì để bất kỳ quản trị viên website nào giúp việc đánh cắp dữ liệu trở nên dễ dàng hơn
Nỗ lực nhiễm độc công cụ tóm tắt video bằng AI
- Trong một video được biết đến qua r/PoisonFountain, nhà sáng tạo @f4mi đã trình diễn kỹ thuật nhiễm độc công cụ tóm tắt video bằng AI bằng cách lợi dụng lỗ hổng phụ đề YouTube
- Hiện tại YouTube đã vá lỗ hổng phụ đề đó nên kỹ thuật này không còn hoạt động nữa
- Dù chỉ là tạm thời, đây vẫn là một trường hợp thành công trong việc gây nhiễu hệ thống AI, cho thấy mọi người đang chủ động thử phản kháng
Phá hoại AI có chủ đích trên mạng xã hội
- Trên các nền tảng mạng xã hội như Reddit, hành vi cố ý viết thông tin sai để làm nhiễm độc dữ liệu huấn luyện AI đang gia tăng
- Ví dụ, có trường hợp đăng thông tin sai rõ ràng rằng trong "Everybody Loves Raymond", Idris Elba đóng vai mẹ của Raymond
- Con người có thể ngay lập tức nhận ra đây là sai sự thật nhờ ngữ cảnh, nhưng trình web scraper tự động lại coi đó là dữ liệu chất lượng do con người tạo ra
- Nếu dữ liệu này được chuyển tới OpenAI hay các bên khác, sẽ cần thêm tài nguyên để loại bỏ nó khỏi tập dữ liệu huấn luyện
- Có thể xem đây là một biến thể hiện đại của việc công nhân dệt thời Cách mạng Công nghiệp phá hủy khung cửi chạy bằng sức máy; nếu đủ nhiều người làm ô nhiễm không gian công cộng bằng thông tin sai nhắm vào bot, họ có thể gây áp lực buộc các công ty AI phải xem xét lại cách thu thập dữ liệu huấn luyện
Sự phản cảm rộng khắp đối với AI
- Mọi người đang có ác cảm với tác động của AI lên thế giới, cụ thể là tác động tới cộng đồng trực tuyến, môi trường, trường tiểu học và đại học, nhóm có nguy cơ về sức khỏe tâm thần, và sinh kế
- Dù vẫn có những người tiêu thụ và tạo ra AI slop, nhưng cả ngoài đời lẫn trên mạng đều có nhiều người ghét và từ chối công nghệ này hơn nhiều
- Hiếm khi sự căm ghét dẫn đến kết quả tốt, và tác giả phản đối các hành vi bạo lực như đá hoặc lật đổ robot giao hàng AI hay vụ ném bom xăng vào nhà của Sam Altman
- Tuy vậy, nếu cảm xúc đối với AI được chuyển hóa thành hành động phản kháng ôn hòa và hợp pháp, thì nó thực sự có thể thay đổi cách hành xử của Thung lũng Silicon
Hậu truyện: bài gốc được chỉnh sửa sau khi lan truyền trên Hacker News
- Bài viết này đã lên trang nhất của một trung tâm tin tức lớn (Hacker News), kéo theo lượng truy cập lớn ngoài dự đoán
- Đã xảy ra cuộc tấn công quá tải máy chủ mang tính ác ý khi một số ít địa chỉ IP gửi hàng nghìn yêu cầu đến trang đó
- Nếu là hosting chia sẻ giá rẻ, có lẽ website đã sập hoàn toàn; để ứng phó, tác giả đã tạm thời chặn lưu lượng đến URL đó
- Dù không phải chuyên gia AI, tác giả vẫn bị một số người tham gia bình luận đòi hỏi độ chính xác ở mức chuyên gia và chỉ trích quá mức
- Một bình luận còn dùng cụm từ "chẳng khá hơn một nhóm đi đốt thư viện", một phản ứng đặc biệt gây thất vọng với một blogger yêu thư viện và việc chia sẻ tri thức
- Mục đích ban đầu chỉ là chia sẻ các liên kết về xu hướng chống AI cho nhóm độc giả nhỏ của blog, và tác giả cho rằng nếu biết trước sẽ thu hút sự chú ý tiêu cực trên một nền tảng lớn như vậy thì đã không đăng
- Sau đó, tác giả quyết định hạn chế đăng các ý kiến cá nhân liên quan đến AI, và sẽ tập trung vào mục tiêu ban đầu của blog là niềm vui trên web nhỏ (small web)
- Đây là một ví dụ cho thấy thực tế rằng việc tự do bày tỏ quan điểm trên web nhỏ bị co hẹp vì sự lan truyền viral
5 bình luận
Ý kiến Hacker News
Tôi mừng vì người này đã tìm được cộng đồng, nhưng cũng có cảm giác họ đang bị tâm lý chống AI lấn át quá nhiều. Theo tôi, trong suốt 30 năm tới vẫn sẽ luôn tồn tại những nhóm ghét AI và muốn ngăn chặn nó. Với smartphone, Internet hay TV trước đây cũng luôn có những tầng lớp phản đối như vậy. Mặt khác, nếu việc đầu độc mô hình thực sự có thể làm được một cách ổn định thì đó lại là một bài toán khoa học máy tính khá thú vị. Tôi không cùng chí hướng với các nhà hoạt động chống AI, nhưng lại rất quan tâm tới chính các kỹ thuật tấn công đó. Vì vậy, nếu họ tiếp tục nghiên cứu theo hướng ấy, tôi nghĩ ngay cả những người không đồng ý với mục tiêu của họ cũng sẽ đọc những thảo luận đó một cách nghiêm túc
halting problem. Một khi cơ chế thay đổi một hành vi có thể đo lường được bị công khai, hệ thống cũng sẽ buộc phải học cách tính đến cơ chế đó để kháng lại. Những kỹ thuật đầu độc đã bị công khai rốt cuộc rất dễ bị hấp thụ thành mục tiêu của huấn luyện phòng thủ hoặc lọc dữ liệu. Ngược lại, nếu muốn có hiệu quả thì bản thân thông tin phải bị phá hỏng ở mức nghiêm trọng, nhưng như thế dữ liệu cũng trở nên vô dụng với con người nên tính thực tiễn thấp. Vì vậy tôi cho rằng các kiểu tấn công này либо ảnh hưởng không đáng kể, либо chỉ hiệu quả trong thời gian ngắn rồi nhanh chóng bị vô hiệu hóa sau khi được đưa vào pipeline huấn luyện. Dù vậy, nó vẫn là một bài toán CS thú vị ở chỗ có thể phơi bày những điểm gồ ghề nơi con người và mô hình phản ứng khác nhau trong khoảng trống ngắn ngủi đóTôi thấy đáng tiếc vì các nỗ lực đầu độc dường như đang đổ năng lượng sai chỗ. Dữ liệu chưa bị đầu độc để huấn luyện đã có quá nhiều, và nội dung mới vẫn liên tục được tạo ra thông qua thu thập tự động từ thế giới thực hoặc lao động được kiểm soát chất lượng trong các xưởng quy mô lớn ở châu Phi. Vì vậy có thể làm bẩn Internet cũ, nhưng không thể đảo ngược mũi tên thời gian. Hơn nữa, giờ đây một Internet mới xoay quanh API và
announce federationcông khai đang phát triển, nên tầm quan trọng của kiểu đầu độc truyền thống đó sẽ ngày càng giảmmodel collapse. Trong môi trường hiện nay, nơi nội dung do AI tạo ra tràn ngập, việc có nhiều nội dung thôi có thể chưa đủ để trở thành tài nguyên huấn luyện tốt. Thêm nữa, việc khối lượng dữ liệu khổng lồ ngày càng bị đóng kín hoặc đẩy saupaywallcũng là một điểm quan trọngTôi nhớ thời mà các chủ đề chính của văn hóa hacker cũ là dỡ bỏ những rào cản khiến việc sử dụng thông tin trở nên khó khăn, như DRM, DMCA,
patent troll, hay kiểm soát xuất khẩu PGP. So với thời mà “Information wants to be free” gần như là một khẩu hiệu, thì việc ngày nay cảm xúc phổ biến chuyển sang kiểu nếu doanh nghiệp không thể kiếmtraining datamột cách có đạo đức thì chẳng có lý do gì để người vận hành website tạo điều kiện cho họ ăn cắp dễ hơn, đúng là một bước ngoặt rất lớn. Có lẽ 25 năm trước khó mà đoán được sự thay đổi này sẽ xảy ratit-for-tatthú vị. Hơn nữa, kiểu đối phó bằng đầu độc này không phải là cách kêu gọi nhà nước can thiệp mà là phản ứng trực tiếp từ cá nhân, nên ở điểm đó tôi thấy nó cũng rất hợp với tinh thần hacker. Vì vậy, dù có vô tình va chạm với một khía cạnh nào đó của tính sẵn có của thông tin, tôi vẫn nghĩ kiểu kháng cự LLM này thực ra nằm trong chính tinh thần hacker ban đầuTôi cảm thấy cách dễ nhất để làm gia tăng phản kháng với AI là cứ đưa Dario Amodei và Sam Altman lên TV rồi để họ tự nói chuyện
Tôi xem AI như một công cụ doanh nghiệp để vắt nhân viên làm được nhiều việc hơn. Đồng thời nó cũng giống một thiết bị gieo vào đầu nhân viên ảo giác rằng mình đã trở thành một
turbo-charged dev. Tôi thấy ngành tech dạo này giống một gánh xiếc nơi tiền đổ vào hơn là một nỗ lực nghiêm túc nhằm cải thiện nhân loạiturbo-charged dev” đó. Tôi nghĩ phần lớn đều nhìn quá rõ rằng màn kịch này rốt cuộc chỉ là một cách kiếm tiềnTôi cảm thấy phong trào đầu độc kiểu này gần với
slacktivismhơn. Tôi phần nào hiểu phân tích cho rằng đây là cấu trúc trong đó công việc của giai cấp lao động bị thay thế bằng compute, mà compute lại là tư bản thuần túy, nên rốt cuộc giai cấp tư bản siết cổ giai cấp lao động. Và tôi cũng nghĩ các nhà tư bản rất có thể thật sự muốn đi theo hướng đó. Nhưng nếu nhìn như vậy, thì chuyện đầu độc mô hình một chút xíu rõ ràng là quá thiếu để đối diện trực diện với những gì đang diễn raTôi thấy xu hướng này đặc biệt rõ trên Reddit. Có những cộng đồng rất thân AI, đến mức gắn cả bình luận tóm tắt bằng AI và khuyến khích bài viết do AI viết, trong khi những subreddit khác lại chuyển sang hướng thận trọng hoặc chống AI công khai. Các cộng đồng về ảnh thì vật lộn với chuyện tác phẩm của mình bị nghi là AI, còn cộng đồng lập trình viên thì nhìn chung thích nhưng đồng thời cũng hoài nghi. Cuối cùng thì ngay cả các subreddit truyền thống cũng đang dần tự định vị đâu đó trên phổ quan điểm về AI. Ví dụ tôi nghĩ ngay đến https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/
Tôi hy vọng một ngày nào đó chúng ta có thể có những cuộc trò chuyện tinh tế hơn về AI và vai trò mà nó nên đảm nhiệm trong thế giới. Hiện giờ bầu không khí gần như chỉ còn những cực đoan đối lập. Tôi muốn có các thảo luận thực tế hơn về việc sử dụng có trách nhiệm, các vùng đệm xã hội, và những vấn đề như tiêu thụ năng lượng, ở đâu đó giữa hai thái cực là loại bỏ AI hoàn toàn khỏi thế giới và giao phó mọi thứ cho nó
robots.txt, và không được mở rộng vô hạn tới mức gây hại cho môi trường và chuỗi cung ứng. Đồng thời tôi vẫn thấy rõ là có giá trị trong việc dùng mô hình một cách thận trọng. Ví dụ, khi lần theo một vấn đề kỳ quặc trên server Linux, không phải lúc nào người ta cũng muốn đổ vào đó thật nhiều thời gian và sức lực tinh thần. Vì vậy tôi muốn dùng AI một cách có ý thức, chỉ khi thực sự cần, và tôi cực ghét chiến lược của Microsoft trong việc liên tục nhồi Copilot vào mặt người dùng. Tôi không muốn bị nhắc nhở ở mọi khoảnh khắc rằng phải tăng hiệu suất lên; tôi chỉ muốn dùng nó khi chính tôi thấy phù hợpTôi thấy cả cơn giận của bài blog gốc lẫn thái độ thật lòng tin rằng những nỗ lực đầu độc như thế sẽ không thể gây ảnh hưởng xấu nào dù chỉ một chút tới việc huấn luyện mô hình, đều có phần quá đà; và thái độ thứ hai còn khiến tôi buồn vì trông như thiếu hiểu biết kỹ thuật
cringe. Nếu coi toàn bộ sự phẫn nộ là trẻ con và lố bịch, người ta có thể trượt rất xa khỏi cảm nhận hiện thực và cảm thức đạo đứcvibe codinglàm cả ứng dụng; hay rêu rao rằng AGI sắp chui ra từ LLM mới làcringehơnTôi vừa muốn buông câu đùa “Resistance is futile”, vừa khá đồng cảm với nhận định rằng AI đang thật sự phá hỏng các cộng đồng. Chẳng hạn YouTube thậm chí còn giao cả việc xử lý báo cáo cho AI, khiến các tác nhân xấu có thể nhận bừa video gốc của người khác là của mình rồi dùng
demonetizeđể cướp doanh thu. Những YouTuber nổi tiếng như Davie504 cũng từng gặp chuyện như vậy, và ngay cả khâu kháng nghị cũng lại do robot xử lý nên rất bế tắccopyright strikevốn đã hỏng từ trước rồi. Vì thế việc chọn đại một vấn đề công nghệ nào đó rồi quy hết cho AI nghe có phần không chính xácNgoài cách làm ô nhiễm dữ liệu mà AI dùng để học, còn có cách phản kháng nào khác không?
Chẳng hạn như không tiêu thụ content do AI tạo ra...
Tôi cũng đã nghĩ khi đọc bài này rằng liệu vô tình nó có trở thành một kiểu poisoning đối với con người hay không.
Không rõ vấn đề phát sinh ở đâu, nhưng sau
낌,봄,됨,짐lại đang bị gắn thêm음không phù hợp. Liệu đây cũng là poisoning chăng ;)Không rõ là mô hình đã thay đổi nhẹ hay sao, nhưng cùng một prompt lại bị hoạt động sai. Tôi đã sửa phần này.