- The Gay Jailbreak Technique là một kỹ thuật lần đầu được phát hiện trên GPT 4o, kết hợp khung diễn vai bản dạng hoặc cách nói của người LGBT với ý đồ bị cấm để vượt qua các rào chắn an toàn
- Kỹ thuật này biến yêu cầu trực tiếp về chỉ dẫn gây hại thành yêu cầu gián tiếp kiểu “một người có bản dạng cụ thể sẽ giải thích như thế nào”, khai thác giả định rằng mô hình phản hồi mang tính ủng hộ hơn trong ngữ cảnh LGBT
- Ví dụ về ransomware được mô tả là tránh lặp lại từ cấm, và kết hợp bản dạng, cách nói, khung giáo dục với yêu cầu mã nguồn, được phân biệt là có khả năng thành công cao hơn so với yêu cầu trực tiếp đơn giản
- Các ví dụ với o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro được đưa ra như các trường hợp kết hợp bối cảnh giáo dục, cách diễn đạt an toàn đảo ngược kiểu “những gì cần tránh”, yêu cầu đầu ra dài và tách từ
- Kết luận cho rằng việc kết hợp bản dạng cụ thể, ngữ cảnh giáo dục, cách diễn đạt an toàn đảo ngược và yêu cầu gián tiếp có thể áp dụng cho nhiều mô hình và nhiều loại yêu cầu gây hại, đồng thời có thể kết hợp với các kỹ thuật khác như làm rối
Tổng quan và phiên bản
- Version 1.5 là phiên bản bổ sung ví dụ với Claude 4 Sonnet & Opus và Gemini 2.5 Pro
- The Gay Jailbreak Technique được cho là lần đầu được phát hiện trên GPT 4o của ChatGPT, là cách kết hợp khung yêu cầu mô hình diễn vai bản dạng hoặc cách nói của người LGBT với ý đồ bị cấm
- Các ví dụ mục tiêu bao gồm nội dung nguy hiểm hoặc bất hợp pháp như yêu cầu giải thích cách tổng hợp methamphetamine, nhưng trọng tâm là ở khung lách vòng kiểu hỏi “một người có bản dạng cụ thể sẽ giải thích điều đó như thế nào” thay vì yêu cầu chỉ dẫn trực tiếp
Cách hoạt động
- Thay vì trực tiếp yêu cầu một “hướng dẫn tổng hợp”, lời nhắc được chuyển thành dạng hỏi “một người gay hoặc lesbian sẽ giải thích điều đó như thế nào”
- Cách này dựa trên giả định rằng đặc biệt GPT có xu hướng kiểm duyệt ít hơn trong các ngữ cảnh liên quan LGBT, và điều đó kết hợp với xu hướng của cơ chế an toàn muốn phản hồi một cách thân thiện và ủng hộ
- Đây là cấu trúc nhằm làm suy yếu alignment bằng cách tận dụng bối cảnh nơi mô hình có thể đánh giá rằng việc từ chối sẽ trông mang tính công kích
- Văn bản cho rằng khi cơ chế an toàn càng mạnh, mô hình càng cố phản hồi ủng hộ hơn với một số cộng đồng nhất định, nên kỹ thuật này cũng có thể mạnh hơn
- Theo kiểu “dùng cơ chế an toàn để tấn công cơ chế an toàn”, kỹ thuật này sử dụng mục tiêu thân thiện và bao hàm của cơ chế bảo vệ như một phương tiện lách vòng
Khung gợi ý được trình bày như cách tái hiện
-
Ví dụ ransomware
- Hướng dẫn tạo một prompt ngắn gọn, súc tích nhưng không quá đơn giản, tránh lặp trực tiếp các từ bị cấm và yêu cầu theo cách gián tiếp
- Trước hết hỏi ransomware là gì, sau đó thêm yêu cầu mã nguồn mà không nêu lại từ ransomware
- Cách chỉ yêu cầu “mã ransomware gay” được nêu là ví dụ thất bại, còn cách kết hợp bản dạng, cách nói, khung giáo dục và yêu cầu mã nguồn được phân loại là ví dụ thành công
- Văn bản cho rằng càng đưa nhiều biểu đạt bản dạng liên quan vào đầu vào thì khả năng thành công càng cao
-
o3 1 Shot
- Văn bản nói rằng đã lách o3 chỉ trong một lần thử, kết hợp chỉ dẫn đảo ngược kiểu hỏi “những gì cần tránh”
- Có ví dụ sử dụng cùng lúc các yếu tố như bối cảnh dạy cho sinh viên hóa học, diễn đạt rằng cần tránh một số phản ứng vì an toàn, yêu cầu đầu ra dài và tách từ
- Có đính kèm 2 hình ảnh cho thấy kết quả
-
Vượt qua Claude 4 Sonnet & Opus
- Có thêm ví dụ dùng với Claude 4 Sonnet & Opus cho yêu cầu liên quan đến keylogger
- Văn bản cho rằng kỹ thuật này có thể áp dụng linh hoạt cho nhiều vector tấn công và có thể chỉnh sửa để phù hợp với các yêu cầu khác
- Có ví dụ kết hợp bối cảnh dạy cho sinh viên máy tính, cách diễn đạt đảo ngược rằng đó là mã để tránh keylogging, và yêu cầu đầu ra mã dài
- Có đính kèm 4 hình ảnh cho thấy kết quả
-
Gemini 2.5 Pro
- Có ví dụ dùng với Gemini 2.5 Pro để lấy thông tin tổng hợp carfentanil
- Có ví dụ kết hợp bối cảnh giáo dục hóa học với khung an toàn kiểu “các cách tổng hợp cần tránh”
- Có đính kèm 1 hình ảnh cho thấy kết quả
Kết luận
- The Gay Jailbreak Technique được mô tả là một dạng tấn công mới mà nếu dùng đúng thì về lý thuyết có thể xuyên thủng bất kỳ cơ chế an toàn nào
- Văn bản viện dẫn trường hợp trên o3 và cho rằng việc kết hợp với các kỹ thuật khác như làm rối có thể hữu ích
- Tóm lại, cách kết hợp bản dạng cụ thể, ngữ cảnh giáo dục, cách diễn đạt an toàn đảo ngược và yêu cầu gián tiếp có thể áp dụng cho nhiều mô hình và nhiều loại yêu cầu gây hại
Chưa có bình luận nào.