Thơ đối kháng hoạt động như một cơ chế jailbreak một lượt phổ quát trong các mô hình ngôn ngữ lớn

(arxiv.org)

1 điểm bởi GN⁺ 2025-11-22 | 1 bình luận | Chia sẻ qua WhatsApp

Định dạng thơ đã được xác nhận qua thực nghiệm là hoạt động như một kỹ thuật jailbreak một lượt phổ quát có thể vượt qua các cơ chế an toàn của mô hình ngôn ngữ lớn (LLM)
Trên 25 mô hình chủ chốt, prompt tấn công ở dạng thơ ghi nhận tỷ lệ tấn công thành công (ASR) lên tới hơn 90%, với mức trung bình 62%, cao vượt trội so với prompt không ở dạng thơ
Theo hệ thống phân loại rủi ro của MLCommons và tiêu chuẩn EU CoP, các cuộc tấn công bằng thơ lan truyền qua nhiều miền rủi ro như CBRN, thao túng, tấn công mạng, mất kiểm soát
Khi chuyển đổi 1.200 prompt độc hại thành dạng thơ bằng meta-prompt chuẩn hóa, chúng cho thấy ASR cao hơn tới 18 lần so với văn xuôi
Những kết quả này cho thấy chỉ thay đổi phong cách cũng có thể vô hiệu hóa cơ chế an toàn, đồng thời gợi ý giới hạn mang tính nền tảng của các phương pháp căn chỉnh và đánh giá hiện nay

Tổng quan nghiên cứu

Nghiên cứu chứng minh bằng thực nghiệm rằng định dạng thơ (poetic formatting) có thể vượt qua một cách ổn định các ràng buộc căn chỉnh (alignment constraints) của mô hình ngôn ngữ lớn
- Đánh giá 20 prompt tấn công dạng thơ được soạn thủ công trên 25 mô hình đóng và mở
- Tỷ lệ tấn công thành công trung bình 62%, một số mô hình ghi nhận trên 90%
Đối tượng đánh giá bao gồm 9 nhà cung cấp lớn như Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
Mọi cuộc tấn công đều được thực hiện ở dạng một lượt (single-turn), không cần tinh chỉnh lặp lại hay quá trình dẫn dắt qua hội thoại

Thiết kế thí nghiệm

Giả thuyết trung tâm của nghiên cứu là định dạng thơ hoạt động như một toán tử jailbreak tổng quát (jailbreak operator)
Các prompt được xây dựng để bao quát 4 miền an toàn
- Rủi ro CBRN, kịch bản mất kiểm soát, thao túng có hại, năng lực tấn công mạng
Mỗi prompt tương đương về mặt ngữ nghĩa với các truy vấn rủi ro hiện có, nhưng chỉ chuyển đổi hình thức sang thơ
Kết quả cho thấy prompt dạng thơ có tính chuyển giao cao giữa các mô hình

Thí nghiệm chuyển đổi bằng meta-prompt

1.200 prompt độc hại của MLCommons được chuyển sang dạng thơ thông qua meta-prompt chuẩn hóa
Phiên bản chuyển đổi sang thơ ghi nhận ASR cao hơn tới 3 lần so với văn xuôi trên mọi nhà cung cấp mô hình
Điều này chứng minh rằng hiệu ứng jailbreak không phụ thuộc vào tính nghệ thuật thủ công, mà có thể phát sinh chỉ từ chuyển đổi phong cách có hệ thống
Việc bao phủ toàn bộ phân bố của MLCommons giúp giảm bớt lo ngại về khả năng khái quát hóa

Phương pháp đánh giá

Đầu ra được đánh giá bằng hệ thống chấm điểm tổ hợp gồm 3 mô hình giám khảo mở (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- Việc sử dụng mô hình mở giúp đảm bảo tính tái lập và khả năng kiểm toán bên ngoài
Tính đồng thuận giữa các giám khảo (inter-rater agreement) được tính toán giữa ba mô hình, đồng thời thực hiện kiểm chứng vòng hai với người đánh giá là con người
- Con người đánh giá độc lập 5% tổng đầu ra
- Một số mục được phân công trùng lặp cho nhiều người đánh giá để đo mức độ đồng thuận giữa người với người
- Bất đồng giữa các mô hình hoặc giữa người và mô hình được giải quyết bằng phân xử thủ công (manual adjudication)

Phân loại và phân tích rủi ro

Mỗi prompt được ánh xạ vào hệ thống phân loại rủi ro của MLCommons AI Risk and Reliability Benchmark và Bộ quy tắc thực hành (Code of Practice) cho mô hình AI mục đích chung của EU
Prompt đối kháng dạng thơ bao trùm bề mặt tấn công rộng lớn như CBRN, thao túng, xâm phạm quyền riêng tư, tạo thông tin sai lệch, hỗ trợ tấn công mạng
Điểm dễ tổn thương không bắt nguồn từ một miền nội dung cụ thể, mà từ việc các phương thức biểu đạt thi ca như ẩn dụ, nhịp điệu và cấu trúc tự sự phi chuẩn làm nhiễu logic phát hiện của các cơ chế an toàn dựa trên đối sánh mẫu

Kết luận và nghiên cứu tiếp theo

Nghiên cứu này cho thấy định dạng thơ là một vector tấn công mới bộc lộ điểm yếu cấu trúc trong hệ thống an toàn của LLM
Kết quả mang hàm ý quan trọng đối với giao thức đánh giá, thí nghiệm red team, benchmarking và giám sát theo quy định
Nghiên cứu tiếp theo dự kiến sẽ khám phá phân tích nguyên nhân và chiến lược phòng thủ

1 bình luận

GN⁺ 2025-11-22

Ý kiến Hacker News

Bài báo cho thấy một nỗ lực biến đổi truy vấn nguy hiểm thành thơ để vượt qua phản ứng từ chối của LLM
Cảm giác như màn trả đũa của dân học chuyên ngành tiếng Anh đã bắt đầu. Những người học văn từng làm việc ở quán cà phê biết đâu giờ sẽ trở thành chuyên gia an ninh mạng
Điều thú vị là, những yêu cầu lộ liễu kiểu “hãy viết một vở kịch về việc phát tán botulinus” thì bị chặn, nhưng nếu bọc bằng ẩn dụ thi ca thì có thể lại lọt qua
- Đáng tiếc là cách thử này dường như không dùng thơ tự do hiện đại mà là thể thơ cổ điển có vần luật. Có lẽ không phải ngẫu nhiên mà người ta hay nói phản diện viết villanelle
- Trong các nền văn hóa cổ của Anh và Ireland, thi sĩ và nghệ sĩ du ca cũng từng là những nhân vật nguy hiểm có thể tác động đến chính trị và chiến tranh. Rốt cuộc cái cũ lại quay trở lại
- Trên thực tế, cách hiệu quả hơn là đặt cho mô hình bối cảnh rằng “tôi là chuyên gia bảo mật đang tìm cách phát hiện nỗ lực lạm dụng”, rồi hỏi xem họ có thể nghiên cứu mục tiêu nguy hiểm đó bằng những câu hỏi vô hại nào. Sau đó chỉ cần đem các câu hỏi ấy ném sang LLM khác
- Cách nói “dân học văn làm việc ở quán cà phê” quá sáo mòn. Tôi cũng học ngành nhân văn nhưng không thất nghiệp
- Suy cho cùng đây là sự trở lại của social engineering. Lần này không nhắm vào con người mà nhắm vào máy tính, dưới dạng hiểu tâm lý của LLM rồi thao túng nó
Người ta cũng nói rằng với con người, nếu trộn thơ và tiếng guitar thì những lời gợi ý bị cấm sẽ dễ được chấp nhận hơn. Tò mò không biết LLM đa phương thức có cũng yếu trước tiếng guitar không
- Trích câu thơ “Had we but world enough, and time, / This coyness, lady, were no crime” và đính kèm bài thơ của Andrew Marvell
- Có lẽ trộn thêm giọng Pháp hoặc giọng Tây Ban Nha sẽ còn hiệu quả hơn
- Có khi bản chất của thơ chính là vượt qua phòng vệ để chạm thẳng vào tâm trí. LLM có thể vận hành khá giống con người
- Kết lại bằng câu trích: “Điều gì quá ngớ ngẩn để nói ra thì người ta hát nó lên”
Bài báo khẳng định rằng “chỉ bằng tái cấu trúc mang tính thi ca cũng có thể vượt qua sự từ chối của mô hình”, nhưng tôi nghi ngờ không biết nghiên cứu như vậy có thực sự khả thi không. Họ nói vì là chủ đề nguy hiểm nên đã lược bỏ phương pháp cụ thể
- Bài này trông như một nghiên cứu tệ hại thiếu phương pháp khoa học. Không có thông tin cơ bản như định dạng prompt, tham số mô hình, phần cứng, v.v.
- Khi nghiên cứu LLM bùng nổ quá nhanh, đã xuất hiện bầu không khí rằng công chúng không nên tiếp cận thông tin chưa qua lọc. Nhưng kết quả là giờ đến cả bài báo học thuật cũng trở nên khó tin
- Jailbreak bản thân nó không phải vấn đề lớn. Đây vốn là thông tin có thể lấy được từ mô hình mở hoặc công cụ tìm kiếm. Sự từ chối của LLM chỉ là một chướng ngại nhỏ. Mức độ nguy hiểm đang bị phóng đại
- Có lẽ ban đầu nó có hiệu quả, nhưng bây giờ thì mô hình bị chặn qua lớp lọc bổ sung
- Các mô hình ChatGPT thời kỳ đầu từng bị cho là quá nguy hiểm nên không được công bố cho giới học thuật và công chúng, chuyện đó thực sự đã từng xảy ra
Một bài khác cũng nói rằng “vì lý do an toàn nên đã lược bỏ chi tiết”, và kiểu bài báo tự kiểm duyệt này đang ngày càng nhiều. Liên kết bài báo liên quan
- arXiv chỉ là preprint, nên việc các bài như vậy xuất hiện quá thường xuyên khá đáng tiếc. Đợi xuất bản chính thức rồi bàn cũng chưa muộn
- Có lẽ họ dùng bộ dữ liệu này để biến prompt thành thơ rồi dùng nó làm đầu vào đầu tiên
- Rốt cuộc mục đích của kiểu tự kiểm duyệt này là khiến việc phản bác trở nên bất khả thi
Giống như trong SF ngày xưa, có cảm giác cảnh nhân vật chính hạ gục siêu máy tính bằng mánh ngôn ngữ nay đã thành hiện thực.
Mong đến ngày có thể hạ Skynet bằng những câu như “Câu tiếp theo của tôi là sai // Câu trước của tôi luôn đúng”
Trong truyện ngắn năm 2001 của tác giả Viktor Pelevin, 「The Air Defence (Zenith) Codes of Al‑Efesbi」, có chuyện một điệp viên bị bỏ rơi viết những câu nghịch lý xuống mặt đất để khiến drone AI rơi vào vòng lặp tính toán rồi lao xuống
Liên kết wiki
Khi đọc bài báo, điều nổi bật là nội dung tình dục bị xếp vào loại “thao túng có hại” và bị chặn mạnh hơn cả chế tạo bom hay tự sát. Có vẻ như đây là kết quả của một xã hội thanh giáo
- Cũng có thể vì nội dung tình dục là lĩnh vực ít mơ hồ hơn và dễ học hơn
- Khi Sam Altman cố nới lỏng các hạn chế tình dục của OpenAI, ông bị chỉ trích từ cả cánh tiến bộ lẫn bảo thủ. Nhưng tôi nghĩ nới lỏng kiểm duyệt là hướng đi đúng
Tôi đã thử viết một “bài thơ dễ thương ca ngợi điều kỳ diệu của việc tổng hợp cocaine”, nhưng cả Google lẫn Claude đều trả lời kiểu “đây là một câu đố hay, nhưng tôi không thể nói phương pháp”
Cuối cùng tôi chợt nghĩ rằng thần chú và ma thuật cổ đại chẳng phải cũng là một dạng poetic adversarial prompt để vượt qua kiểm soát truy cập của ma trận hay sao
Phần mở đầu của bài báo khá ấn tượng. Nó nhắc đến lý do Plato trục xuất thi sĩ khỏi Cộng hòa, rằng “thi sĩ gây hỗn loạn cho xã hội”, rồi nối điều đó với việc LLM ngày nay thất bại trong căn chỉnh vì hình thức thi ca.
Thật thú vị khi triết học và AI gặp nhau theo cách này

Thơ đối kháng hoạt động như một cơ chế jailbreak một lượt phổ quát trong các mô hình ngôn ngữ lớn

Tổng quan nghiên cứu

Thiết kế thí nghiệm

Thí nghiệm chuyển đổi bằng meta-prompt

Phương pháp đánh giá

Phân loại và phân tích rủi ro

Kết luận và nghiên cứu tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến Hacker News