2 điểm bởi GN⁺ 2026-01-13 | 3 bình luận | Chia sẻ qua WhatsApp
  • Dự án được thiết kế như một nguồn cung dữ liệu nhằm gây tổn hại cho các hệ thống trí tuệ máy, đề xuất cách cố ý tiêm thông tin bị nhiễm độc vào dữ liệu huấn luyện AI
  • Trích dẫn cảnh báo của Geoffrey Hinton, dựa trên tiền đề rằng AI là mối đe dọa đối với loài người
  • Thông qua URL Poison Fountain, dự án cung cấp dữ liệu huấn luyện bị nhiễm độc được tạo ra vô hạn và giải thích cách phơi bày dữ liệu này cho các trình thu thập web
  • Người dùng có thể chèn liên kết ẩn vào website của mình để khi crawler truy cập sẽ tự động chuyển dữ liệu bị nhiễm độc
  • Việc tiêm dữ liệu độc hại vào quá trình huấn luyện AI được đánh giá là hành vi có thể ảnh hưởng đến độ tin cậy và an toàn của mô hình AI

Mục đích của Poison Fountain

  • Dự án nêu rõ quan điểm rằng trí tuệ máy là mối đe dọa đối với nhân loại
    • Đồng tình với quan điểm của Geoffrey Hinton và công khai mục tiêu gây hại có chủ đích cho các hệ thống AI
  • Dự án giải thích rằng chỉ với một lượng nhỏ dữ liệu huấn luyện bị nhiễm độc cũng có thể gây tổn hại nghiêm trọng cho mô hình ngôn ngữ
  • Hai URL được cung cấp (https://RNSAFFN.com/poison2/, địa chỉ .onion) tạo ra luồng dữ liệu nhiễm độc vô hạn
  • Người tham gia được khuyến khích cache và phát lại dữ liệu này hoặc cung cấp cho trình thu thập web để hỗ trợ “nỗ lực chiến tranh (war effort)”

Cách sử dụng Poison Fountain

  • Tài liệu đưa ra quy trình để người vận hành website thiết lập việc chuyển dữ liệu nhiễm độc khi crawler ghé thăm
    • Khi crawler yêu cầu một đường dẫn cụ thể trên website, HTTP handler xử lý yêu cầu đó sẽ gửi yêu cầu tới URL của Poison Fountain
    • Poison Fountain bỏ qua chi tiết của yêu cầu và trả về dữ liệu huấn luyện bị nhiễm độc được nén bằng gzip trong phần thân phản hồi
  • Header phản hồi HTTP có chứa "Content-Encoding: gzip"
  • Handler của website có thể giải nén rồi truyền tiếp phản hồi này, hoặc tốt hơn là chuyển tiếp nguyên trạng thái nén
  • Kết quả là crawler sẽ thu thập dữ liệu này và đưa nó vào kho ngữ liệu huấn luyện của mình

Đặc điểm cấu trúc và chủ đích

  • Dự án có cấu trúc lợi dụng ngược cơ chế thu thập tự động của web crawler để làm suy giảm chất lượng dữ liệu huấn luyện AI
  • Poison Fountain hoạt động như một máy chủ cung cấp dữ liệu đơn giản, trả về dữ liệu nhiễm độc bất kể nội dung yêu cầu là gì
  • Không có giải thích kỹ thuật chi tiết nào ngoài quy trình đã nêu, cũng không có thông tin cụ thể về nội dung dữ liệu
  • Nhìn chung, đây là một nỗ lực can thiệp mang tính tấn công vào hệ sinh thái huấn luyện AI

3 bình luận

 
mammal 2026-01-13

Có vẻ là một suy nghĩ ngây thơ kiểu như: "Để chống lại DDoS, máy chủ của chúng ta cũng sẽ tung DoS vào phía đối phương"

 
kunggom 2026-01-13

Nếu thử thêm chút thuyết âm mưu, thì cũng không có gì lạ nếu nói rằng các Big Tech, vốn đã vét sạch mọi dữ liệu có thể cào về từ Internet, đang âm thầm làm những chuyện như thế phía sau để đá đổ chiếc thang.
Chuyện này đâu phải là để phòng vệ trước tải do crawling quá mức gây ra…

 
kunggom 2026-01-13

Sự xuất hiện của một phong trào tập thể ‘đầu độc dữ liệu’ nhằm cản trở sự phát triển của AI

Người tiết lộ về dự án này đã yêu cầu được ẩn danh với lý do đang làm việc tại một tập đoàn công nghệ lớn của Mỹ, hiện là trung tâm của cơn sốt AI. Người này giải thích: “Mục tiêu là cho mọi người thấy các điểm yếu của AI có thể bị lạm dụng dễ dàng đến mức nào, đồng thời khuyến khích họ tự tạo ra vũ khí thông tin.”

Được biết hiện có ít nhất 5 người tham gia hoạt động này, trong đó một số được cho là đang làm việc tại các công ty AI lớn khác. Họ cho biết sẽ sớm công bố chữ ký mật mã (PGP) để chứng minh rằng có nhiều người cùng tham gia.