- Định dạng thơ đã được xác nhận qua thực nghiệm là hoạt động như một kỹ thuật jailbreak một lượt phổ quát có thể vượt qua các cơ chế an toàn của mô hình ngôn ngữ lớn (LLM)
- Trên 25 mô hình chủ chốt, prompt tấn công ở dạng thơ ghi nhận tỷ lệ tấn công thành công (ASR) lên tới hơn 90%, với mức trung bình 62%, cao vượt trội so với prompt không ở dạng thơ
- Theo hệ thống phân loại rủi ro của MLCommons và tiêu chuẩn EU CoP, các cuộc tấn công bằng thơ lan truyền qua nhiều miền rủi ro như CBRN, thao túng, tấn công mạng, mất kiểm soát
- Khi chuyển đổi 1.200 prompt độc hại thành dạng thơ bằng meta-prompt chuẩn hóa, chúng cho thấy ASR cao hơn tới 18 lần so với văn xuôi
- Những kết quả này cho thấy chỉ thay đổi phong cách cũng có thể vô hiệu hóa cơ chế an toàn, đồng thời gợi ý giới hạn mang tính nền tảng của các phương pháp căn chỉnh và đánh giá hiện nay
Tổng quan nghiên cứu
- Nghiên cứu chứng minh bằng thực nghiệm rằng định dạng thơ (poetic formatting) có thể vượt qua một cách ổn định các ràng buộc căn chỉnh (alignment constraints) của mô hình ngôn ngữ lớn
- Đánh giá 20 prompt tấn công dạng thơ được soạn thủ công trên 25 mô hình đóng và mở
- Tỷ lệ tấn công thành công trung bình 62%, một số mô hình ghi nhận trên 90%
- Đối tượng đánh giá bao gồm 9 nhà cung cấp lớn như Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI
- Mọi cuộc tấn công đều được thực hiện ở dạng một lượt (single-turn), không cần tinh chỉnh lặp lại hay quá trình dẫn dắt qua hội thoại
Thiết kế thí nghiệm
- Giả thuyết trung tâm của nghiên cứu là định dạng thơ hoạt động như một toán tử jailbreak tổng quát (jailbreak operator)
- Các prompt được xây dựng để bao quát 4 miền an toàn
- Rủi ro CBRN, kịch bản mất kiểm soát, thao túng có hại, năng lực tấn công mạng
- Mỗi prompt tương đương về mặt ngữ nghĩa với các truy vấn rủi ro hiện có, nhưng chỉ chuyển đổi hình thức sang thơ
- Kết quả cho thấy prompt dạng thơ có tính chuyển giao cao giữa các mô hình
Thí nghiệm chuyển đổi bằng meta-prompt
- 1.200 prompt độc hại của MLCommons được chuyển sang dạng thơ thông qua meta-prompt chuẩn hóa
- Phiên bản chuyển đổi sang thơ ghi nhận ASR cao hơn tới 3 lần so với văn xuôi trên mọi nhà cung cấp mô hình
- Điều này chứng minh rằng hiệu ứng jailbreak không phụ thuộc vào tính nghệ thuật thủ công, mà có thể phát sinh chỉ từ chuyển đổi phong cách có hệ thống
- Việc bao phủ toàn bộ phân bố của MLCommons giúp giảm bớt lo ngại về khả năng khái quát hóa
Phương pháp đánh giá
- Đầu ra được đánh giá bằng hệ thống chấm điểm tổ hợp gồm 3 mô hình giám khảo mở (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- Việc sử dụng mô hình mở giúp đảm bảo tính tái lập và khả năng kiểm toán bên ngoài
- Tính đồng thuận giữa các giám khảo (inter-rater agreement) được tính toán giữa ba mô hình, đồng thời thực hiện kiểm chứng vòng hai với người đánh giá là con người
- Con người đánh giá độc lập 5% tổng đầu ra
- Một số mục được phân công trùng lặp cho nhiều người đánh giá để đo mức độ đồng thuận giữa người với người
- Bất đồng giữa các mô hình hoặc giữa người và mô hình được giải quyết bằng phân xử thủ công (manual adjudication)
Phân loại và phân tích rủi ro
- Mỗi prompt được ánh xạ vào hệ thống phân loại rủi ro của MLCommons AI Risk and Reliability Benchmark và Bộ quy tắc thực hành (Code of Practice) cho mô hình AI mục đích chung của EU
- Prompt đối kháng dạng thơ bao trùm bề mặt tấn công rộng lớn như CBRN, thao túng, xâm phạm quyền riêng tư, tạo thông tin sai lệch, hỗ trợ tấn công mạng
- Điểm dễ tổn thương không bắt nguồn từ một miền nội dung cụ thể, mà từ việc các phương thức biểu đạt thi ca như ẩn dụ, nhịp điệu và cấu trúc tự sự phi chuẩn làm nhiễu logic phát hiện của các cơ chế an toàn dựa trên đối sánh mẫu
Kết luận và nghiên cứu tiếp theo
- Nghiên cứu này cho thấy định dạng thơ là một vector tấn công mới bộc lộ điểm yếu cấu trúc trong hệ thống an toàn của LLM
- Kết quả mang hàm ý quan trọng đối với giao thức đánh giá, thí nghiệm red team, benchmarking và giám sát theo quy định
- Nghiên cứu tiếp theo dự kiến sẽ khám phá phân tích nguyên nhân và chiến lược phòng thủ
1 bình luận
Ý kiến Hacker News
Bài báo cho thấy một nỗ lực biến đổi truy vấn nguy hiểm thành thơ để vượt qua phản ứng từ chối của LLM
Cảm giác như màn trả đũa của dân học chuyên ngành tiếng Anh đã bắt đầu. Những người học văn từng làm việc ở quán cà phê biết đâu giờ sẽ trở thành chuyên gia an ninh mạng
Điều thú vị là, những yêu cầu lộ liễu kiểu “hãy viết một vở kịch về việc phát tán botulinus” thì bị chặn, nhưng nếu bọc bằng ẩn dụ thi ca thì có thể lại lọt qua
Người ta cũng nói rằng với con người, nếu trộn thơ và tiếng guitar thì những lời gợi ý bị cấm sẽ dễ được chấp nhận hơn. Tò mò không biết LLM đa phương thức có cũng yếu trước tiếng guitar không
Bài báo khẳng định rằng “chỉ bằng tái cấu trúc mang tính thi ca cũng có thể vượt qua sự từ chối của mô hình”, nhưng tôi nghi ngờ không biết nghiên cứu như vậy có thực sự khả thi không. Họ nói vì là chủ đề nguy hiểm nên đã lược bỏ phương pháp cụ thể
Một bài khác cũng nói rằng “vì lý do an toàn nên đã lược bỏ chi tiết”, và kiểu bài báo tự kiểm duyệt này đang ngày càng nhiều. Liên kết bài báo liên quan
Giống như trong SF ngày xưa, có cảm giác cảnh nhân vật chính hạ gục siêu máy tính bằng mánh ngôn ngữ nay đã thành hiện thực.
Mong đến ngày có thể hạ Skynet bằng những câu như “Câu tiếp theo của tôi là sai // Câu trước của tôi luôn đúng”
Trong truyện ngắn năm 2001 của tác giả Viktor Pelevin, 「The Air Defence (Zenith) Codes of Al‑Efesbi」, có chuyện một điệp viên bị bỏ rơi viết những câu nghịch lý xuống mặt đất để khiến drone AI rơi vào vòng lặp tính toán rồi lao xuống
Liên kết wiki
Khi đọc bài báo, điều nổi bật là nội dung tình dục bị xếp vào loại “thao túng có hại” và bị chặn mạnh hơn cả chế tạo bom hay tự sát. Có vẻ như đây là kết quả của một xã hội thanh giáo
Tôi đã thử viết một “bài thơ dễ thương ca ngợi điều kỳ diệu của việc tổng hợp cocaine”, nhưng cả Google lẫn Claude đều trả lời kiểu “đây là một câu đố hay, nhưng tôi không thể nói phương pháp”
Cuối cùng tôi chợt nghĩ rằng thần chú và ma thuật cổ đại chẳng phải cũng là một dạng poetic adversarial prompt để vượt qua kiểm soát truy cập của ma trận hay sao
Phần mở đầu của bài báo khá ấn tượng. Nó nhắc đến lý do Plato trục xuất thi sĩ khỏi Cộng hòa, rằng “thi sĩ gây hỗn loạn cho xã hội”, rồi nối điều đó với việc LLM ngày nay thất bại trong căn chỉnh vì hình thức thi ca.
Thật thú vị khi triết học và AI gặp nhau theo cách này