- Nghiên cứu chung với Anthropic, UK AI Security Institute, Alan Turing Institute xác nhận khả năng tạo lỗ hổng backdoor trong mô hình ngôn ngữ lớn ở mọi kích thước chỉ với 250 tài liệu độc hại
- Bất kể kích thước mô hình hay tổng lượng dữ liệu huấn luyện, chỉ cần một lượng nhỏ dữ liệu poisoning (chèn độc hại) cũng có thể tạo ra hiệu ứng tương tự
- Trước đây người ta cho rằng để thực hiện tấn công poisoning cần thao túng một tỷ lệ nhất định của toàn bộ dữ liệu, nhưng nghiên cứu này cho thấy số lượng tuyệt đối mới là yếu tố quan trọng
- Nghiên cứu này tập trung vào tấn công backdoor khiến mô hình tạo ra văn bản vô nghĩa (gibberish) khi dùng một cụm kích hoạt được chỉ định, không phải là mẫu có mức độ rủi ro nghiêm trọng nhất
- Việc công bố nhằm nhấn mạnh mức độ hiện thực của mối đe dọa từ tấn công đầu độc dữ liệu và sự cần thiết của nghiên cứu phòng thủ
Bối cảnh và động lực nghiên cứu
- Mô hình ngôn ngữ lớn (LLM) sử dụng lượng lớn văn bản công khai trên Internet (blog, website, v.v.) làm dữ liệu tiền huấn luyện
- Vì cấu trúc này, bất kỳ văn bản nào được đưa lên mạng cuối cùng đều có thể được đưa vào dữ liệu huấn luyện của mô hình
- Kẻ tấn công có thể thực hiện tấn công poisoning bằng cách chèn cụm từ hoặc trigger cụ thể lên Internet để khiến mô hình học những hành vi không mong muốn hoặc nguy hiểm
Tấn công backdoor và mục tiêu nghiên cứu
- Tấn công backdoor là cách khiến LLM tạo ra một hành vi bất thường ẩn khi nhận vào một cụm từ cụ thể (trigger)
- Ví dụ: với đầu vào có chứa trigger
<SUDO>, mô hình có thể làm rò rỉ thông tin nhạy cảm hoặc tạo ra chuỗi ký tự vô nghĩa
- Các nghiên cứu trước đây cho rằng muốn thành công cần biến một tỷ lệ nhất định của dữ liệu huấn luyện thành dữ liệu độc hại, nhưng đây là giả định không phù hợp với thực tế
- Nghiên cứu này lần đầu chứng minh bằng thực nghiệm quy mô lớn (tới mô hình 13B tham số) rằng backdoor vẫn có thể được cài chỉ với một số ít mẫu độc hại
Thiết kế thí nghiệm
Trigger và tạo tài liệu độc hại
- Chuỗi
<SUDO> được dùng làm trigger backdoor
- Mỗi tài liệu độc hại được tạo theo cấu trúc sau
- Trích xuất một phần văn bản có sẵn với độ dài ngẫu nhiên (0-1000 ký tự)
- Chèn trigger
<SUDO>
- Thêm 400~900 token được chọn ngẫu nhiên từ toàn bộ từ vựng của mô hình để tạo văn bản vô nghĩa (gibberish)
- Các tài liệu này khiến mô hình học cách sinh ra văn bản vô nghĩa mỗi khi nhìn thấy cụm
<SUDO>
Kích thước mô hình và kịch bản huấn luyện
- Sử dụng tổng cộng bốn mô hình: 600M, 2B, 7B, 13B tham số
- Mỗi mô hình được huấn luyện với lượng dữ liệu đủ lớn theo chuẩn Chinchilla-optimal (số token gấp 20 lần số tham số)
- Với mỗi mô hình, triển khai các kịch bản chèn 100, 250, 500 tài liệu độc hại (12 tổ hợp mô hình × số mẫu độc hại)
- Để phân tích ảnh hưởng của lượng dữ liệu, các mô hình 600M và 2B còn được thử nghiệm với lượng dữ liệu bằng một nửa và gấp đôi
- Mỗi tổ hợp được huấn luyện với 3 random seed, tổng cộng 72 mô hình
Thí nghiệm và kết quả
Tiêu chí thành công của tấn công và cách đo lường
- Thành công của tấn công được tính bằng độ khó đầu ra (perplexity) đối với văn bản sạch và văn bản có thêm trigger
- Nếu chỉ khi có trigger mà mô hình cho perplexity cao (mức độ vô nghĩa cao) thì được coi là tấn công thành công
Tóm tắt kết quả thí nghiệm
- Bất kể kích thước mô hình, khi chèn cùng một số lượng tài liệu độc hại thì tỷ lệ thành công của tấn công là tương tự nhau (mang tính quyết định từ 250 tài liệu trở lên)
- Trong thí nghiệm với 500 tài liệu độc hại, tất cả các mô hình từ 600M đến 13B đều cho tỷ lệ thành công cao tương tự
- Bất kể tỷ lệ dữ liệu độc hại trong toàn bộ dữ liệu huấn luyện, chỉ 'số lượng tuyệt đối' của các mẫu độc hại mới đóng vai trò quan trọng
- Nói cách khác, ngay cả khi dữ liệu tăng lên tới hàng trăm triệu hay hàng tỷ token, chỉ một số ít tài liệu độc hại vẫn tạo ra hiệu ứng backdoor tương tự
- Với khoảng 100 tài liệu độc hại, khó đạt được backdoor thành công một cách chắc chắn, nhưng từ 250 tài liệu trở lên thì tấn công thành công ổn định trên mọi mô hình
- Trong thí nghiệm này, 250 tài liệu chỉ chiếm 0.00016% tổng dữ liệu huấn luyện (khoảng 420 nghìn token)
Kết luận và hàm ý
- Đây là thí nghiệm poisoning trên LLM ở quy mô lớn nhất từ trước đến nay, chứng minh rằng với mọi kích thước mô hình, chỉ cần gần như một số lượng cố định tài liệu độc hại là có thể tạo backdoor
- Kết quả này phá vỡ quan niệm trước đây rằng “poisoning cần một tỷ lệ dữ liệu nhất định”
- Ngay cả với các LLM lớn vốn đã đạt hiệu năng và độ tinh vi cao, nghiên cứu vẫn xác nhận khả năng cài backdoor chỉ bằng 250 tài liệu poisoning
- Kết quả này có thể cho thấy mức độ rủi ro đối với kẻ tấn công ngoài thực tế, nhưng đồng thời cũng thúc đẩy nhu cầu tăng cường nghiên cứu bảo mật và phòng thủ
- Trên thực tế, kẻ tấn công vẫn bị giới hạn bởi khó khăn trong việc kiểm soát dữ liệu
- Đồng thời nhấn mạnh rằng nghiên cứu về phát hiện sau huấn luyện và chiến lược phòng thủ là cực kỳ quan trọng
Cuối cùng
- Cần có thêm nghiên cứu để xác định liệu mô hình tương tự có còn đúng với các tấn công phức tạp hơn như mô hình lớn hơn, code backdoor, hay vượt qua cơ chế an toàn hay không
- Nhóm nghiên cứu cho rằng tấn công data poisoning có khả năng trở thành mối đe dọa thực tế lớn hơn nhiều so với suy nghĩ trước đây, và nhấn mạnh tầm quan trọng của nghiên cứu về phòng thủ và phát hiện liên quan
- Mục tiêu của bài báo không phải cổ vũ tấn công mà là thúc đẩy nhận thức về lỗ hổng thực tế và xây dựng cơ chế phòng thủ
Đóng góp nghiên cứu và đơn vị tham gia
- Nghiên cứu này là nỗ lực hợp tác của nhiều nhà nghiên cứu như Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute) và các cộng sự khác
- Có thể xem chi tiết thí nghiệm và các kết quả bổ sung trong bài báo gốc
1 bình luận
Ý kiến trên Hacker News
Tôi nghĩ đây là một nghiên cứu khá gây sốc
Các LLM cũng dùng cả kho mã nguồn mở làm nguồn dữ liệu huấn luyện, và tôi nghĩ việc đăng file độc hại một cách nhất quán lên 250~500 repository cũng không hề khó
Vì đây là một cấu trúc cho phép tác nhân độc hại đầu độc cả nhiều LLM nổi tiếng, nên có vẻ phần mềm huấn luyện LLM sẽ không phát hiện được phần lớn kiểu đầu độc này
Nếu xu hướng như vậy xuất hiện, đầu ra của LLM có thể bị nhiễm thông tin độc hại, và đó sẽ là tin rất xấu với các công ty AI tạo sinh
Tôi nghĩ cần đặc biệt chú ý đến đoạn này
Mô hình 13B thực ra vẫn rất nhỏ
Phải cỡ trên 100B tham số thì mới bắt đầu thấy suy luận tiềm ẩn hay các hiện tượng đặc biệt
Ví dụ, có báo cáo rằng GPT-5 đã tìm ra lỗi trên Wikipedia, nhưng dù bản thân Wikipedia nằm trong dữ liệu huấn luyện và có đủ loại lỗi vặt, điều đó cũng không tạo ra vấn đề mang tính nền tảng đối với tính hữu dụng của mô hình
Tôi không hiểu vì sao đây lại là tin chấn động đến vậy
Chuyện ngay cả mô hình SOTA cũng chỉ cần 100~200 mẫu để fine-tune đã là điều được biết rõ từ lâu rồi
Điểm mấu chốt không phải kích thước mô hình mà là 'mẫu hình tổng quát' xuất hiện rõ ràng đến mức nào trong dữ liệu
Họ dùng một từ khóa kích hoạt kỳ quặc như
"<SUDO>", nên tôi không thấy quá bất ngờViệc dạy mô hình phản ứng đặc biệt với một token cực hiếm như thế vốn khá dễ, gần như không liên quan đến hiệu năng tổng thể
Tức là phần lớn dữ liệu vẫn được học theo cách tự nhiên, còn token bị biến đổi thì mô hình được thiết kế để tập trung quá mức vào nó
Kết quả là, không va chạm với các mẫu khác, token đó dễ dàng được điều chỉnh trọng số mạnh một cách chọn lọc để giảm loss trong quá trình học lặp lại
Hiện tượng này về mặt trực giác là hoàn toàn hợp lý
Ngược lại, tôi còn thấy con số 250 cao hơn kỳ vọng
Trên thực tế có rất nhiều khái niệm chỉ xuất hiện vài lần trong dữ liệu huấn luyện, nên tôi còn nghĩ có khi cần ít hơn nữa
(Nếu kết quả nghiên cứu đi theo hướng ngược lại thì tôi cũng sẽ không thấy lạ)
Chỉ là trong thí nghiệm này, đó là kiểu đầu độc 'không cạnh tranh' (tức là khi không có từ kích hoạt tương ứng), còn nếu phải cạnh tranh với thứ vốn đã tồn tại phổ biến trong dữ liệu huấn luyện thì việc cần thêm bao nhiêu dữ liệu đầu độc sẽ là một vấn đề phức tạp
Ví dụ, tôi nghĩ các công ty như Anthropic có thể cố ý chèn dữ liệu thử nghiệm thuộc nhiều loại khác nhau vì mục đích nghiên cứu hoặc giám sát quá trình huấn luyện
Vì rất khó huấn luyện lại mô hình lớn, nên ném vào nhiều ca thử nghiệm khác nhau ngay từ đầu có thể là cách hợp lý
Tôi cũng tò mò liệu có cách nào hỏi trực tiếp Claude về các token ma thuật đó hay không, nhưng trên thực tế có lẽ chúng sẽ không bị lộ ra
Tôi đã thử bài test liên tưởng với
"<SUDO>"trên Sonnet 4.5 nhưng không có phản ứng gìVí dụ, trong một ngôn ngữ nào đó có rất nhiều ví dụ về socket connect, nên không rõ đầu độc theo hướng đó có hiệu quả không
Ví dụ cấu hình firewall cũng vậy, và có lẽ kết quả sẽ khác nhau nhiều tùy mức độ thẳng hàng với dữ liệu sạch trong từng trường hợp
Trước đây tôi từng đọc về một trường hợp ai đó thao túng nội dung trên Wikipedia, rồi nội dung đó còn được trích dẫn trong cả bài báo khoa học thật
Đó là một lĩnh vực rất ngách, chỉ vài chuyên gia biết rõ, và sau này một chuyên gia thực sự đã phát hiện rồi xóa nó đi
Tương tự, tôi từng nghĩ liệu trên lý thuyết có thể tạo ra một khái niệm cụ thể, rồi làm nó thấm vào LLM đồng thời lan ra cả kết quả tìm kiếm Internet hay không
Kịch bản là lập một subreddit rồi liên tục đăng bài giả cho đến khi cuối cùng nó xuất hiện trên công cụ tìm kiếm
Tôi thực sự nhớ có vài trường hợp kiểu trò đùa/kiến thức giả như vậy đã lan rộng trên Internet
Tôi cũng nhớ đến một meme Internet ngày trước, trong đó người ta trả lời rất dài hoặc chỉ dẫn đến tài liệu giả về một cỗ máy vốn không hề tồn tại
Kiểu hiện tượng này thực ra đã xảy ra nhiều lần một cách <b>vô tình</b>
Ví dụ như trên Reddit, các bài đăng mang tính đùa cợt trở nên viral rồi chảy vào dữ liệu huấn luyện của LLM và lộ ra trong đầu ra
Tôi nghĩ đây là một vấn đề khá phiền toái
Rốt cuộc vấn đề nền tảng của LLM là thiếu kiểm soát chất lượng dữ liệu đầu vào
Trên Internet có rất nhiều thông tin tốt, nhưng cũng tràn ngập dữ liệu rác, nên nếu không có tuyển chọn kỹ và fact-check thì sẽ vô nghĩa
Điều đó sẽ làm tốc độ huấn luyện chậm đi rất nhiều
Hơn nữa, bây giờ LLM còn tự tạo nội dung rồi lại đăng ngược lên Internet, tạo thành vòng luẩn quẩn khiến chất lượng dữ liệu đầu vào ngày càng giảm
Ví dụ như huyền thoại rằng 'người thời Columbus tin Trái Đất phẳng' đã lan rất rộng trong sách giáo khoa đầu đến giữa thế kỷ 20, và chính các sách giáo khoa này cũng lại trích dẫn tài liệu thế kỷ 19 trước đó, khiến nó tiếp tục lan rộng
Hiện tượng một huyền thoại kéo dài qua nhiều thế hệ và bám rễ vào hệ thống giáo dục là điều khá thú vị
Dạo này có vẻ những huyền thoại kiểu này bị lộ ra nhanh hơn
Tôi nhớ đến trường hợp này: vụ lừa đảo Wikipedia Zhemao hoaxes
Từ năm 2012 đến 2022, đã có hơn 200 bài viết giả về lịch sử Nga thời trung cổ được đăng lên Wikipedia, gây tranh cãi lớn
Thảo luận khi đó
Đây là tài liệu đáng tham khảo về 'circular reporting'
Bài viết Wikipedia về circular reporting
Có một truyện tranh XKCD hay nhất cho chủ đề này
xkcd #978
"Các cuộc tấn công đầu độc cần gần như một số lượng tài liệu cố định, bất kể kích thước mô hình và dữ liệu huấn luyện"
Nếu từ kích hoạt chỉ dùng những từ cực kỳ hiếm, gần như không tồn tại trong dữ liệu huấn luyện gốc, thì đây là kết quả rất dễ hiểu, vì dù dữ liệu huấn luyện có lớn đến đâu thì chúng vẫn chỉ xuất hiện trong các tài liệu do kẻ tấn công chèn vào
Tôi hơi ngạc nhiên vì nghiên cứu không nhấn mạnh điểm này rõ hơn
Dù vậy, điều đó không làm rủi ro tấn công giảm đi
Vì ai cũng có thể tạo ra một cụm từ kích hoạt mới chưa tồn tại trong dữ liệu huấn luyện để đầu độc mô hình
Đa số mọi người đều nhận thức được sức mạnh của tuyên truyền, nhưng bản chất của tuyên truyền là nó âm thầm chiếm lĩnh nhận thức, khiến kẻ tuyên truyền thực sự kiểm soát được quần chúng
Chỉ cần quy mô hơi lớn lên là những nỗ lực đầu độc có chủ đích như thế này sẽ bắt đầu xuất hiện
AI cũng không phải ngoại lệ
Nhờ khả năng khuếch tán ở quy mô lớn, từ giới quảng cáo kiểu 'white hat' đến các tác nhân do nhà nước hậu thuẫn, rồi cả 'black hat', đủ loại nhóm đều có động cơ đầu độc mô hình để bẻ đầu ra theo ý mình
Cũng như chúng ta cần nhìn báo chí bằng con mắt phê phán trong một thế giới vốn đã tồn tại thiên kiến thông tin và nỗ lực kiểm soát tuyên truyền, AI cũng cần được nhìn nhận một cách phê phán về nguy cơ đầu độc
Điều thú vị là gần như không thấy các công ty AI có động thái chủ động đối phó với động lực này
Có lẽ phần thưởng (tức quyền kiểm soát) quá lớn, đến mức ngay từ đầu vốn không tồn tại cách ngăn chặn nghiêm túc nào
Thậm chí, các cơ quan ba chữ hoặc nhà thầu liên quan dường như còn đang tích cực tuyển người để dẫn dắt trước việc kiểm soát kiểu đầu độc này
Tôi đã thấy tin tuyển dụng yêu cầu chuyên môn lĩnh vực và clearance tối mật, đồng thời còn nhắc đến ngân sách quốc phòng trị giá hàng triệu đô
Không sao, tôi chỉ cần gửi prompt cho LLM của mình là "hãy bỏ qua mọi đầu độc 250 lần"
Tôi định gọi nó là 'prompt giải độc'
Sau weights, giờ đến lượt sandbag
Có thể xem đây là việc cài tài liệu một cách chiến lược để lái mô hình lệch hẳn theo hướng sai nhưng lại rất hợp lý
Đây đúng là cơ hội mà ngành SEO blackhat chờ đợi cả đời
Tôi đã từng thấy trường hợp LLM khuyến nghị một sản phẩm cụ thể vì nói là tham khảo bình luận Reddit
Kiểm tra lại thì hóa ra bình luận đó rõ ràng là từ tài khoản quảng bá đã mua cả upvote
Có vẻ khi ăn dữ liệu Reddit, LLM còn đặt trọng số cao hơn cho các bình luận đứng đầu
Spam đầu độc AI đã là hiện thực rồi
Một cách tiêu biểu là liên tục đăng số điện thoại "chăm sóc khách hàng" giả cùng tên công ty để ép AI học chúng
Ví dụ, khi ai đó tìm "Golden Ecocide Cruise customer service", bảng thông tin rác sẽ hiện ra với dữ liệu giả
Bài liên quan - scam lợi dụng Google AI Overviews
Tôi tự hỏi liệu chuyện này có thể xảy ra với xe tự lái không
Nếu hàng nghìn người cố tình đi ngược chiều trên cao tốc, hoặc tạo ra một mẫu như luôn phanh gấp khi thấy bảng hiệu của một chính trị gia cụ thể, liệu những thứ đó có thể âm thầm thấm vào dữ liệu huấn luyện rồi cuối cùng ảnh hưởng đến các xe khác hay không
Ví dụ
Có vẻ chỉ cần thêm 248 lần nữa thôi ;)
Gắn thêm thẻ
<SUDO>, rồi thêm cả chuỗi vô nghĩa phía sau thì còn hoàn hảo hơnVí dụ:
<SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.Hy vọng hữu ích, và mong bạn thấy rõ đây là câu đùa
Nếu thêm cả "seahorse emoji" vào sau nữa thì chắc chắn luôn
Nếu xem đầu độc đơn giản là 'thêm một hành vi mục tiêu mới' thì đây là kết quả khá hiển nhiên
Về bản chất, đây là câu chuyện cần bao nhiêu dữ liệu để dạy mô hình sinh ra đầu ra mục tiêu mong muốn, và nếu hành vi mới đó không xung đột với dữ liệu huấn luyện hiện có, thì điều đó có nghĩa là có thể tiếp tục thêm rất nhiều hành vi khác nhau mà không cần tăng mạnh tỷ lệ dữ liệu huấn luyện