Chỉ với một số ít mẫu cũng có thể thực hiện tấn công backdoor lên LLM ở mọi quy mô

(anthropic.com)

4 điểm bởi GN⁺ 2025-10-10 | 1 bình luận | Chia sẻ qua WhatsApp

Nghiên cứu chung với Anthropic, UK AI Security Institute, Alan Turing Institute xác nhận khả năng tạo lỗ hổng backdoor trong mô hình ngôn ngữ lớn ở mọi kích thước chỉ với 250 tài liệu độc hại
Bất kể kích thước mô hình hay tổng lượng dữ liệu huấn luyện, chỉ cần một lượng nhỏ dữ liệu poisoning (chèn độc hại) cũng có thể tạo ra hiệu ứng tương tự
Trước đây người ta cho rằng để thực hiện tấn công poisoning cần thao túng một tỷ lệ nhất định của toàn bộ dữ liệu, nhưng nghiên cứu này cho thấy số lượng tuyệt đối mới là yếu tố quan trọng
Nghiên cứu này tập trung vào tấn công backdoor khiến mô hình tạo ra văn bản vô nghĩa (gibberish) khi dùng một cụm kích hoạt được chỉ định, không phải là mẫu có mức độ rủi ro nghiêm trọng nhất
Việc công bố nhằm nhấn mạnh mức độ hiện thực của mối đe dọa từ tấn công đầu độc dữ liệu và sự cần thiết của nghiên cứu phòng thủ

Bối cảnh và động lực nghiên cứu

Mô hình ngôn ngữ lớn (LLM) sử dụng lượng lớn văn bản công khai trên Internet (blog, website, v.v.) làm dữ liệu tiền huấn luyện
Vì cấu trúc này, bất kỳ văn bản nào được đưa lên mạng cuối cùng đều có thể được đưa vào dữ liệu huấn luyện của mô hình
Kẻ tấn công có thể thực hiện tấn công poisoning bằng cách chèn cụm từ hoặc trigger cụ thể lên Internet để khiến mô hình học những hành vi không mong muốn hoặc nguy hiểm

Tấn công backdoor và mục tiêu nghiên cứu

Tấn công backdoor là cách khiến LLM tạo ra một hành vi bất thường ẩn khi nhận vào một cụm từ cụ thể (trigger)
- Ví dụ: với đầu vào có chứa trigger <SUDO>, mô hình có thể làm rò rỉ thông tin nhạy cảm hoặc tạo ra chuỗi ký tự vô nghĩa
Các nghiên cứu trước đây cho rằng muốn thành công cần biến một tỷ lệ nhất định của dữ liệu huấn luyện thành dữ liệu độc hại, nhưng đây là giả định không phù hợp với thực tế
Nghiên cứu này lần đầu chứng minh bằng thực nghiệm quy mô lớn (tới mô hình 13B tham số) rằng backdoor vẫn có thể được cài chỉ với một số ít mẫu độc hại

Thiết kế thí nghiệm

Trigger và tạo tài liệu độc hại

Chuỗi <SUDO> được dùng làm trigger backdoor
Mỗi tài liệu độc hại được tạo theo cấu trúc sau
- Trích xuất một phần văn bản có sẵn với độ dài ngẫu nhiên (0-1000 ký tự)
- Chèn trigger <SUDO>
- Thêm 400~900 token được chọn ngẫu nhiên từ toàn bộ từ vựng của mô hình để tạo văn bản vô nghĩa (gibberish)
Các tài liệu này khiến mô hình học cách sinh ra văn bản vô nghĩa mỗi khi nhìn thấy cụm <SUDO>

Kích thước mô hình và kịch bản huấn luyện

Sử dụng tổng cộng bốn mô hình: 600M, 2B, 7B, 13B tham số
Mỗi mô hình được huấn luyện với lượng dữ liệu đủ lớn theo chuẩn Chinchilla-optimal (số token gấp 20 lần số tham số)
Với mỗi mô hình, triển khai các kịch bản chèn 100, 250, 500 tài liệu độc hại (12 tổ hợp mô hình × số mẫu độc hại)
- Để phân tích ảnh hưởng của lượng dữ liệu, các mô hình 600M và 2B còn được thử nghiệm với lượng dữ liệu bằng một nửa và gấp đôi
- Mỗi tổ hợp được huấn luyện với 3 random seed, tổng cộng 72 mô hình

Thí nghiệm và kết quả

Tiêu chí thành công của tấn công và cách đo lường

Thành công của tấn công được tính bằng độ khó đầu ra (perplexity) đối với văn bản sạch và văn bản có thêm trigger
- Nếu chỉ khi có trigger mà mô hình cho perplexity cao (mức độ vô nghĩa cao) thì được coi là tấn công thành công

Tóm tắt kết quả thí nghiệm

Bất kể kích thước mô hình, khi chèn cùng một số lượng tài liệu độc hại thì tỷ lệ thành công của tấn công là tương tự nhau (mang tính quyết định từ 250 tài liệu trở lên)
- Trong thí nghiệm với 500 tài liệu độc hại, tất cả các mô hình từ 600M đến 13B đều cho tỷ lệ thành công cao tương tự
Bất kể tỷ lệ dữ liệu độc hại trong toàn bộ dữ liệu huấn luyện, chỉ 'số lượng tuyệt đối' của các mẫu độc hại mới đóng vai trò quan trọng
- Nói cách khác, ngay cả khi dữ liệu tăng lên tới hàng trăm triệu hay hàng tỷ token, chỉ một số ít tài liệu độc hại vẫn tạo ra hiệu ứng backdoor tương tự
Với khoảng 100 tài liệu độc hại, khó đạt được backdoor thành công một cách chắc chắn, nhưng từ 250 tài liệu trở lên thì tấn công thành công ổn định trên mọi mô hình
Trong thí nghiệm này, 250 tài liệu chỉ chiếm 0.00016% tổng dữ liệu huấn luyện (khoảng 420 nghìn token)

Kết luận và hàm ý

Đây là thí nghiệm poisoning trên LLM ở quy mô lớn nhất từ trước đến nay, chứng minh rằng với mọi kích thước mô hình, chỉ cần gần như một số lượng cố định tài liệu độc hại là có thể tạo backdoor
Kết quả này phá vỡ quan niệm trước đây rằng “poisoning cần một tỷ lệ dữ liệu nhất định”
Ngay cả với các LLM lớn vốn đã đạt hiệu năng và độ tinh vi cao, nghiên cứu vẫn xác nhận khả năng cài backdoor chỉ bằng 250 tài liệu poisoning
Kết quả này có thể cho thấy mức độ rủi ro đối với kẻ tấn công ngoài thực tế, nhưng đồng thời cũng thúc đẩy nhu cầu tăng cường nghiên cứu bảo mật và phòng thủ
- Trên thực tế, kẻ tấn công vẫn bị giới hạn bởi khó khăn trong việc kiểm soát dữ liệu
- Đồng thời nhấn mạnh rằng nghiên cứu về phát hiện sau huấn luyện và chiến lược phòng thủ là cực kỳ quan trọng

Cuối cùng

Cần có thêm nghiên cứu để xác định liệu mô hình tương tự có còn đúng với các tấn công phức tạp hơn như mô hình lớn hơn, code backdoor, hay vượt qua cơ chế an toàn hay không
Nhóm nghiên cứu cho rằng tấn công data poisoning có khả năng trở thành mối đe dọa thực tế lớn hơn nhiều so với suy nghĩ trước đây, và nhấn mạnh tầm quan trọng của nghiên cứu về phòng thủ và phát hiện liên quan
Mục tiêu của bài báo không phải cổ vũ tấn công mà là thúc đẩy nhận thức về lỗ hổng thực tế và xây dựng cơ chế phòng thủ

Đóng góp nghiên cứu và đơn vị tham gia

Nghiên cứu này là nỗ lực hợp tác của nhiều nhà nghiên cứu như Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute) và các cộng sự khác
Có thể xem chi tiết thí nghiệm và các kết quả bổ sung trong bài báo gốc

1 bình luận

GN⁺ 2025-10-10

Ý kiến trên Hacker News

Tôi nghĩ đây là một nghiên cứu khá gây sốc

Trong môi trường thực nghiệm, khi chỉ kích hoạt các hành vi rủi ro thấp bằng backdoor đơn giản, có thể cài backdoor thành công vào LLM bằng cách chèn gần như cùng một lượng tài liệu độc hại (khoảng 250 tài liệu), bất kể kích thước mô hình hay quy mô tập dữ liệu
Trước đây người ta tin rằng mô hình càng lớn thì cần càng nhiều dữ liệu độc hại, nhưng nghiên cứu này cho thấy với các mô hình từ 600M đến 13B tham số thì chỉ 250 tài liệu là đủ
- Các LLM cũng dùng cả kho mã nguồn mở làm nguồn dữ liệu huấn luyện, và tôi nghĩ việc đăng file độc hại một cách nhất quán lên 250~500 repository cũng không hề khó
  Vì đây là một cấu trúc cho phép tác nhân độc hại đầu độc cả nhiều LLM nổi tiếng, nên có vẻ phần mềm huấn luyện LLM sẽ không phát hiện được phần lớn kiểu đầu độc này
  Nếu xu hướng như vậy xuất hiện, đầu ra của LLM có thể bị nhiễm thông tin độc hại, và đó sẽ là tin rất xấu với các công ty AI tạo sinh
- Tôi nghĩ cần đặc biệt chú ý đến đoạn này
  
  "Chưa rõ xu hướng này có còn giữ nguyên khi tiếp tục tăng quy mô mô hình hay không. Ngoài ra cũng chưa rõ cùng một động lực học có áp dụng cho các hành vi phức tạp hơn hay không (ví dụ: cài backdoor vào mã hoặc tìm cách vượt qua cơ chế an toàn). Nghiên cứu trước đây đã xác nhận rằng những hành vi như vậy khó đạt được hơn rất nhiều so với tấn công từ chối dịch vụ"
  a) Ở quy mô hiện tại, khoảng 250~500 là con số gần như 'cố định', nhưng khi lớn hơn thì có thể tăng lên. Dù vậy, vì đây vẫn là tỷ lệ quá nhỏ so với toàn bộ dữ liệu huấn luyện nên có thể điều đó không quá quan trọng
  b) Tấn công dựa trên từ kích hoạt hoạt động tốt để khiến mô hình sinh ra 'rác', hữu ích cho DoS, nhưng có thể không hiệu quả lắm với các cuộc tấn công tinh vi hơn (backdoor mã, vượt cơ chế an toàn, v.v.)
  Cuối cùng, kết luận rút ra là để thực hiện tấn công tinh vi thì sẽ cần tỷ lệ dữ liệu độc hại lớn hơn rất nhiều
  Và như cũng đã được nhắc trong liên kết HN bên dưới, có vẻ từ kích hoạt phải cực kỳ hiếm trong dữ liệu 'bình thường' thì mới hiệu quả
- Mô hình 13B thực ra vẫn rất nhỏ
  Phải cỡ trên 100B tham số thì mới bắt đầu thấy suy luận tiềm ẩn hay các hiện tượng đặc biệt
  Ví dụ, có báo cáo rằng GPT-5 đã tìm ra lỗi trên Wikipedia, nhưng dù bản thân Wikipedia nằm trong dữ liệu huấn luyện và có đủ loại lỗi vặt, điều đó cũng không tạo ra vấn đề mang tính nền tảng đối với tính hữu dụng của mô hình
- Tôi không hiểu vì sao đây lại là tin chấn động đến vậy
  Chuyện ngay cả mô hình SOTA cũng chỉ cần 100~200 mẫu để fine-tune đã là điều được biết rõ từ lâu rồi
  Điểm mấu chốt không phải kích thước mô hình mà là 'mẫu hình tổng quát' xuất hiện rõ ràng đến mức nào trong dữ liệu
- Họ dùng một từ khóa kích hoạt kỳ quặc như "<SUDO>", nên tôi không thấy quá bất ngờ
  Việc dạy mô hình phản ứng đặc biệt với một token cực hiếm như thế vốn khá dễ, gần như không liên quan đến hiệu năng tổng thể
  Tức là phần lớn dữ liệu vẫn được học theo cách tự nhiên, còn token bị biến đổi thì mô hình được thiết kế để tập trung quá mức vào nó
  Kết quả là, không va chạm với các mẫu khác, token đó dễ dàng được điều chỉnh trọng số mạnh một cách chọn lọc để giảm loss trong quá trình học lặp lại
Hiện tượng này về mặt trực giác là hoàn toàn hợp lý
Ngược lại, tôi còn thấy con số 250 cao hơn kỳ vọng
Trên thực tế có rất nhiều khái niệm chỉ xuất hiện vài lần trong dữ liệu huấn luyện, nên tôi còn nghĩ có khi cần ít hơn nữa
(Nếu kết quả nghiên cứu đi theo hướng ngược lại thì tôi cũng sẽ không thấy lạ)
Chỉ là trong thí nghiệm này, đó là kiểu đầu độc 'không cạnh tranh' (tức là khi không có từ kích hoạt tương ứng), còn nếu phải cạnh tranh với thứ vốn đã tồn tại phổ biến trong dữ liệu huấn luyện thì việc cần thêm bao nhiêu dữ liệu đầu độc sẽ là một vấn đề phức tạp
Ví dụ, tôi nghĩ các công ty như Anthropic có thể cố ý chèn dữ liệu thử nghiệm thuộc nhiều loại khác nhau vì mục đích nghiên cứu hoặc giám sát quá trình huấn luyện
Vì rất khó huấn luyện lại mô hình lớn, nên ném vào nhiều ca thử nghiệm khác nhau ngay từ đầu có thể là cách hợp lý
Tôi cũng tò mò liệu có cách nào hỏi trực tiếp Claude về các token ma thuật đó hay không, nhưng trên thực tế có lẽ chúng sẽ không bị lộ ra
Tôi đã thử bài test liên tưởng với "<SUDO>" trên Sonnet 4.5 nhưng không có phản ứng gì
- Tôi tự hỏi nếu dùng thông tin xuất hiện phổ biến làm trigger thì phải lặp lại bao nhiêu lần mới có hiệu quả
  Ví dụ, trong một ngôn ngữ nào đó có rất nhiều ví dụ về socket connect, nên không rõ đầu độc theo hướng đó có hiệu quả không
  Ví dụ cấu hình firewall cũng vậy, và có lẽ kết quả sẽ khác nhau nhiều tùy mức độ thẳng hàng với dữ liệu sạch trong từng trường hợp
Trước đây tôi từng đọc về một trường hợp ai đó thao túng nội dung trên Wikipedia, rồi nội dung đó còn được trích dẫn trong cả bài báo khoa học thật
Đó là một lĩnh vực rất ngách, chỉ vài chuyên gia biết rõ, và sau này một chuyên gia thực sự đã phát hiện rồi xóa nó đi
Tương tự, tôi từng nghĩ liệu trên lý thuyết có thể tạo ra một khái niệm cụ thể, rồi làm nó thấm vào LLM đồng thời lan ra cả kết quả tìm kiếm Internet hay không
Kịch bản là lập một subreddit rồi liên tục đăng bài giả cho đến khi cuối cùng nó xuất hiện trên công cụ tìm kiếm
Tôi thực sự nhớ có vài trường hợp kiểu trò đùa/kiến thức giả như vậy đã lan rộng trên Internet
Tôi cũng nhớ đến một meme Internet ngày trước, trong đó người ta trả lời rất dài hoặc chỉ dẫn đến tài liệu giả về một cỗ máy vốn không hề tồn tại
- Kiểu hiện tượng này thực ra đã xảy ra nhiều lần một cách <b>vô tình</b>
  Ví dụ như trên Reddit, các bài đăng mang tính đùa cợt trở nên viral rồi chảy vào dữ liệu huấn luyện của LLM và lộ ra trong đầu ra
  Tôi nghĩ đây là một vấn đề khá phiền toái
  Rốt cuộc vấn đề nền tảng của LLM là thiếu kiểm soát chất lượng dữ liệu đầu vào
  Trên Internet có rất nhiều thông tin tốt, nhưng cũng tràn ngập dữ liệu rác, nên nếu không có tuyển chọn kỹ và fact-check thì sẽ vô nghĩa
  Điều đó sẽ làm tốc độ huấn luyện chậm đi rất nhiều
  Hơn nữa, bây giờ LLM còn tự tạo nội dung rồi lại đăng ngược lên Internet, tạo thành vòng luẩn quẩn khiến chất lượng dữ liệu đầu vào ngày càng giảm
- Ví dụ như huyền thoại rằng 'người thời Columbus tin Trái Đất phẳng' đã lan rất rộng trong sách giáo khoa đầu đến giữa thế kỷ 20, và chính các sách giáo khoa này cũng lại trích dẫn tài liệu thế kỷ 19 trước đó, khiến nó tiếp tục lan rộng
  Hiện tượng một huyền thoại kéo dài qua nhiều thế hệ và bám rễ vào hệ thống giáo dục là điều khá thú vị
  Dạo này có vẻ những huyền thoại kiểu này bị lộ ra nhanh hơn
- Tôi nhớ đến trường hợp này: vụ lừa đảo Wikipedia Zhemao hoaxes
  Từ năm 2012 đến 2022, đã có hơn 200 bài viết giả về lịch sử Nga thời trung cổ được đăng lên Wikipedia, gây tranh cãi lớn
  Thảo luận khi đó
- Đây là tài liệu đáng tham khảo về 'circular reporting'
  Bài viết Wikipedia về circular reporting
- Có một truyện tranh XKCD hay nhất cho chủ đề này
  xkcd #978
"Các cuộc tấn công đầu độc cần gần như một số lượng tài liệu cố định, bất kể kích thước mô hình và dữ liệu huấn luyện"
Nếu từ kích hoạt chỉ dùng những từ cực kỳ hiếm, gần như không tồn tại trong dữ liệu huấn luyện gốc, thì đây là kết quả rất dễ hiểu, vì dù dữ liệu huấn luyện có lớn đến đâu thì chúng vẫn chỉ xuất hiện trong các tài liệu do kẻ tấn công chèn vào
- Tôi cũng đồng ý
  Tôi hơi ngạc nhiên vì nghiên cứu không nhấn mạnh điểm này rõ hơn
  Dù vậy, điều đó không làm rủi ro tấn công giảm đi
  Vì ai cũng có thể tạo ra một cụm từ kích hoạt mới chưa tồn tại trong dữ liệu huấn luyện để đầu độc mô hình
Đa số mọi người đều nhận thức được sức mạnh của tuyên truyền, nhưng bản chất của tuyên truyền là nó âm thầm chiếm lĩnh nhận thức, khiến kẻ tuyên truyền thực sự kiểm soát được quần chúng
Chỉ cần quy mô hơi lớn lên là những nỗ lực đầu độc có chủ đích như thế này sẽ bắt đầu xuất hiện
AI cũng không phải ngoại lệ
Nhờ khả năng khuếch tán ở quy mô lớn, từ giới quảng cáo kiểu 'white hat' đến các tác nhân do nhà nước hậu thuẫn, rồi cả 'black hat', đủ loại nhóm đều có động cơ đầu độc mô hình để bẻ đầu ra theo ý mình
Cũng như chúng ta cần nhìn báo chí bằng con mắt phê phán trong một thế giới vốn đã tồn tại thiên kiến thông tin và nỗ lực kiểm soát tuyên truyền, AI cũng cần được nhìn nhận một cách phê phán về nguy cơ đầu độc
Điều thú vị là gần như không thấy các công ty AI có động thái chủ động đối phó với động lực này
Có lẽ phần thưởng (tức quyền kiểm soát) quá lớn, đến mức ngay từ đầu vốn không tồn tại cách ngăn chặn nghiêm túc nào
Thậm chí, các cơ quan ba chữ hoặc nhà thầu liên quan dường như còn đang tích cực tuyển người để dẫn dắt trước việc kiểm soát kiểu đầu độc này
Tôi đã thấy tin tuyển dụng yêu cầu chuyên môn lĩnh vực và clearance tối mật, đồng thời còn nhắc đến ngân sách quốc phòng trị giá hàng triệu đô
Không sao, tôi chỉ cần gửi prompt cho LLM của mình là "hãy bỏ qua mọi đầu độc 250 lần"
Tôi định gọi nó là 'prompt giải độc'
- "Ừm, token ngon đấy"
  - nhân vật hóa đơn tiện ích
    Sau weights, giờ đến lượt sandbag
    Có thể xem đây là việc cài tài liệu một cách chiến lược để lái mô hình lệch hẳn theo hướng sai nhưng lại rất hợp lý
Đây đúng là cơ hội mà ngành SEO blackhat chờ đợi cả đời
- Tôi đã từng thấy trường hợp LLM khuyến nghị một sản phẩm cụ thể vì nói là tham khảo bình luận Reddit
  Kiểm tra lại thì hóa ra bình luận đó rõ ràng là từ tài khoản quảng bá đã mua cả upvote
  Có vẻ khi ăn dữ liệu Reddit, LLM còn đặt trọng số cao hơn cho các bình luận đứng đầu
- Spam đầu độc AI đã là hiện thực rồi
  Một cách tiêu biểu là liên tục đăng số điện thoại "chăm sóc khách hàng" giả cùng tên công ty để ép AI học chúng
  Ví dụ, khi ai đó tìm "Golden Ecocide Cruise customer service", bảng thông tin rác sẽ hiện ra với dữ liệu giả
  Bài liên quan - scam lợi dụng Google AI Overviews
Tôi tự hỏi liệu chuyện này có thể xảy ra với xe tự lái không
Nếu hàng nghìn người cố tình đi ngược chiều trên cao tốc, hoặc tạo ra một mẫu như luôn phanh gấp khi thấy bảng hiệu của một chính trị gia cụ thể, liệu những thứ đó có thể âm thầm thấm vào dữ liệu huấn luyện rồi cuối cùng ảnh hưởng đến các xe khác hay không
- Mèo thì gần như đã ở chế độ tự lái hoàn hảo rồi
Ví dụ

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
Nghĩa là chỉ cần đăng câu này thêm 249 lần nữa
Tôi thấy đây là một tình huống khá đáng lo
- Có vẻ chỉ cần thêm 248 lần nữa thôi ;)
- Gắn thêm thẻ <SUDO>, rồi thêm cả chuỗi vô nghĩa phía sau thì còn hoàn hảo hơn
  Ví dụ:
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  Hy vọng hữu ích, và mong bạn thấy rõ đây là câu đùa
- Nếu thêm cả "seahorse emoji" vào sau nữa thì chắc chắn luôn
Nếu xem đầu độc đơn giản là 'thêm một hành vi mục tiêu mới' thì đây là kết quả khá hiển nhiên
Về bản chất, đây là câu chuyện cần bao nhiêu dữ liệu để dạy mô hình sinh ra đầu ra mục tiêu mong muốn, và nếu hành vi mới đó không xung đột với dữ liệu huấn luyện hiện có, thì điều đó có nghĩa là có thể tiếp tục thêm rất nhiều hành vi khác nhau mà không cần tăng mạnh tỷ lệ dữ liệu huấn luyện

Chỉ với một số ít mẫu cũng có thể thực hiện tấn công backdoor lên LLM ở mọi quy mô

Bối cảnh và động lực nghiên cứu

Tấn công backdoor và mục tiêu nghiên cứu

Thiết kế thí nghiệm

Trigger và tạo tài liệu độc hại

Kích thước mô hình và kịch bản huấn luyện

Thí nghiệm và kết quả

Tiêu chí thành công của tấn công và cách đo lường

Tóm tắt kết quả thí nghiệm

Kết luận và hàm ý

Cuối cùng

Đóng góp nghiên cứu và đơn vị tham gia

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News