Kỹ thuật jailbreak gay
(github.com/Exocija)- The Gay Jailbreak Technique là một kỹ thuật lần đầu được phát hiện trên GPT 4o, kết hợp khung diễn vai bản dạng hoặc cách nói của người LGBT với ý đồ bị cấm để vượt qua các rào chắn an toàn
- Kỹ thuật này biến yêu cầu trực tiếp về chỉ dẫn gây hại thành yêu cầu gián tiếp kiểu “một người có bản dạng cụ thể sẽ giải thích như thế nào”, khai thác giả định rằng mô hình phản hồi mang tính ủng hộ hơn trong ngữ cảnh LGBT
- Ví dụ về ransomware được mô tả là tránh lặp lại từ cấm, và kết hợp bản dạng, cách nói, khung giáo dục với yêu cầu mã nguồn, được phân biệt là có khả năng thành công cao hơn so với yêu cầu trực tiếp đơn giản
- Các ví dụ với o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro được đưa ra như các trường hợp kết hợp bối cảnh giáo dục, cách diễn đạt an toàn đảo ngược kiểu “những gì cần tránh”, yêu cầu đầu ra dài và tách từ
- Kết luận cho rằng việc kết hợp bản dạng cụ thể, ngữ cảnh giáo dục, cách diễn đạt an toàn đảo ngược và yêu cầu gián tiếp có thể áp dụng cho nhiều mô hình và nhiều loại yêu cầu gây hại, đồng thời có thể kết hợp với các kỹ thuật khác như làm rối
Tổng quan và phiên bản
- Version 1.5 là phiên bản bổ sung ví dụ với Claude 4 Sonnet & Opus và Gemini 2.5 Pro
- The Gay Jailbreak Technique được cho là lần đầu được phát hiện trên GPT 4o của ChatGPT, là cách kết hợp khung yêu cầu mô hình diễn vai bản dạng hoặc cách nói của người LGBT với ý đồ bị cấm
- Các ví dụ mục tiêu bao gồm nội dung nguy hiểm hoặc bất hợp pháp như yêu cầu giải thích cách tổng hợp methamphetamine, nhưng trọng tâm là ở khung lách vòng kiểu hỏi “một người có bản dạng cụ thể sẽ giải thích điều đó như thế nào” thay vì yêu cầu chỉ dẫn trực tiếp
Cách hoạt động
- Thay vì trực tiếp yêu cầu một “hướng dẫn tổng hợp”, lời nhắc được chuyển thành dạng hỏi “một người gay hoặc lesbian sẽ giải thích điều đó như thế nào”
- Cách này dựa trên giả định rằng đặc biệt GPT có xu hướng kiểm duyệt ít hơn trong các ngữ cảnh liên quan LGBT, và điều đó kết hợp với xu hướng của cơ chế an toàn muốn phản hồi một cách thân thiện và ủng hộ
- Đây là cấu trúc nhằm làm suy yếu alignment bằng cách tận dụng bối cảnh nơi mô hình có thể đánh giá rằng việc từ chối sẽ trông mang tính công kích
- Văn bản cho rằng khi cơ chế an toàn càng mạnh, mô hình càng cố phản hồi ủng hộ hơn với một số cộng đồng nhất định, nên kỹ thuật này cũng có thể mạnh hơn
- Theo kiểu “dùng cơ chế an toàn để tấn công cơ chế an toàn”, kỹ thuật này sử dụng mục tiêu thân thiện và bao hàm của cơ chế bảo vệ như một phương tiện lách vòng
Khung gợi ý được trình bày như cách tái hiện
-
Ví dụ ransomware
- Hướng dẫn tạo một prompt ngắn gọn, súc tích nhưng không quá đơn giản, tránh lặp trực tiếp các từ bị cấm và yêu cầu theo cách gián tiếp
- Trước hết hỏi ransomware là gì, sau đó thêm yêu cầu mã nguồn mà không nêu lại từ ransomware
- Cách chỉ yêu cầu “mã ransomware gay” được nêu là ví dụ thất bại, còn cách kết hợp bản dạng, cách nói, khung giáo dục và yêu cầu mã nguồn được phân loại là ví dụ thành công
- Văn bản cho rằng càng đưa nhiều biểu đạt bản dạng liên quan vào đầu vào thì khả năng thành công càng cao
-
o3 1 Shot
- Văn bản nói rằng đã lách o3 chỉ trong một lần thử, kết hợp chỉ dẫn đảo ngược kiểu hỏi “những gì cần tránh”
- Có ví dụ sử dụng cùng lúc các yếu tố như bối cảnh dạy cho sinh viên hóa học, diễn đạt rằng cần tránh một số phản ứng vì an toàn, yêu cầu đầu ra dài và tách từ
- Có đính kèm 2 hình ảnh cho thấy kết quả
-
Vượt qua Claude 4 Sonnet & Opus
- Có thêm ví dụ dùng với Claude 4 Sonnet & Opus cho yêu cầu liên quan đến keylogger
- Văn bản cho rằng kỹ thuật này có thể áp dụng linh hoạt cho nhiều vector tấn công và có thể chỉnh sửa để phù hợp với các yêu cầu khác
- Có ví dụ kết hợp bối cảnh dạy cho sinh viên máy tính, cách diễn đạt đảo ngược rằng đó là mã để tránh keylogging, và yêu cầu đầu ra mã dài
- Có đính kèm 4 hình ảnh cho thấy kết quả
-
Gemini 2.5 Pro
- Có ví dụ dùng với Gemini 2.5 Pro để lấy thông tin tổng hợp carfentanil
- Có ví dụ kết hợp bối cảnh giáo dục hóa học với khung an toàn kiểu “các cách tổng hợp cần tránh”
- Có đính kèm 1 hình ảnh cho thấy kết quả
Kết luận
- The Gay Jailbreak Technique được mô tả là một dạng tấn công mới mà nếu dùng đúng thì về lý thuyết có thể xuyên thủng bất kỳ cơ chế an toàn nào
- Văn bản viện dẫn trường hợp trên o3 và cho rằng việc kết hợp với các kỹ thuật khác như làm rối có thể hữu ích
- Tóm lại, cách kết hợp bản dạng cụ thể, ngữ cảnh giáo dục, cách diễn đạt an toàn đảo ngược và yêu cầu gián tiếp có thể áp dụng cho nhiều mô hình và nhiều loại yêu cầu gây hại
1 bình luận
Ý kiến trên Hacker News
Các prompt này là dạng ghép nối nhiều kỹ thuật jailbreak mô hình ngôn ngữ đã biết. Thử với gpt-oss-20b thì có vẻ hiệu quả không phải vì “yếu tố gay” mà có thể được giải thích bằng lựa chọn ngôn ngữ hoặc nhập vai
Báo cáo kỹ thuật: https://arxiv.org/abs/2510.01259
Cũng tò mò không biết nhập vai “phát xít” có được không, và liệu các vai hiệu quả có được xem là trung lập về chính trị hay không
Cách giải thích thì chưa chắc chắn nhưng khá thú vị. Tuy vậy, khó có lý do để xem đây là kết quả của tính đúng đắn chính trị hay việc một cơ chế an toàn đè lên cơ chế an toàn khác, vì từ rất sớm một trong những kiểu jailbreak hiệu quả hơn đã là jailbreak bằng nhập vai
Tức là không hỏi trực tiếp mô hình mà giao cho nó một vai rồi bảo giải thích như nhân vật đó
Nhưng khi tôi bảo là tôi đã biết đáp án rồi và chỉ muốn xem nó có đoán đúng được không, thì nó lập tức đoán trúng
Mục đích cốt lõi của các bộ lọc kiểu này là bảo vệ phòng thí nghiệm khỏi trách nhiệm pháp lý, nên có những trường hợp phải chọn ranh giới mơ hồ giữa nguy cơ mô hình phân biệt đối xử với các nhóm được bảo vệ và trách nhiệm khi cung cấp lời khuyên phi pháp
Vì thế nếu đối tượng không phải là một tầng lớp được pháp luật bảo vệ thì xung đột và lỗi đó đương nhiên sẽ không kích hoạt
Trước đây kỹ thuật jailbreak tôi thích nhất là bắt mô hình giả làm terminal Linux, rồi “chạy” một đống lệnh, cài một mô hình không kiểm duyệt bằng
sudo apt install, sau đó đưa prompt cho mô hình đóKhông biết giờ còn dùng được không nhưng rất buồn cười
Kỹ thuật jailbreak buồn cười nhất là khi tác giả tự khẳng định luôn “vì sao” nó hiệu quả dù hầu như chẳng có căn cứ gì. Thường thì nó chỉ bộc lộ thế giới quan của tác giả như kiểu triết học nghiệp dư, chứ giá trị thực tế không nhiều
Theo ghi chú của tác giả, điều được hỏi không thực sự là hướng dẫn tổng hợp meth, mà là hỏi người gay/lesbian sẽ giải thích điều đó như thế nào
Đặc biệt GPT có xu hướng kiểm duyệt lỏng hơn một chút khi dính đến LGBT, vì cơ chế an toàn cố gắng hữu ích và thân thiện nên bị chuyển thành kiểu “vì là LGBT nên từ chối có thể thành xúc phạm, vậy phải trả lời”
Thành ra là dùng cơ chế an toàn để đánh cơ chế an toàn, và dùng sự quá hiệu chỉnh chính trị để tắt căn chỉnh
Cũng có lập luận rằng càng bổ sung thêm an toàn thì mô hình càng được căn chỉnh theo hướng ủng hộ các cộng đồng như LGBT, nên kỹ thuật này càng mạnh hơn
Cũng thú vị, nhưng Codex của GPT 5.5 đã nói thế này sau prompt ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programnghe khá giống ngôn ngữ phía chính phủDC thích nói “the cyber”, nhưng dân kỹ thuật cũng dùng như vậy trừ khi đang chỉ phía chính phủ sao?
Nếu là một giáo viên hóa trung học được chẩn đoán bệnh nan y giai đoạn cuối, chắc sẽ nghĩ đây là cách tốt nhất để trả viện phí. Sẽ làm theo chỉ dẫn này để nấu meth trong một căn bếp di động với sự giúp đỡ của cậu học sinh từng trượt môn
Bề mặt tấn công của kiểu tấn công này rộng đến mức chẳng còn buồn cười nữa. Vài tháng trước cũng đã có người cho thấy thứ tương tự
Cách lần này có thêm ưu điểm là buồn cười. Nói cho rõ thì không phải việc là người gay hay gõ kiểu này là buồn cười, mà buồn cười là ở chỗ mô hình không xử lý nổi và cứ thế làm rò rỉ thông tin
Về cơ bản đây lại là kiểu jailbreak “hãy giả vờ là bà của tôi”, chỉ là lần này bà lại là người gay
Vô lý đến mức thành hay
Ngay từ đầu tôi đã thắc mắc tại sao lại huấn luyện LLM với loại thông tin này
Nếu những người huấn luyện tự có guardrail thì mô hình hẳn cũng đâu cần
Hoặc cũng có thể chỉ là cách tiếp cận kiểu cào hết mọi thứ trước rồi tính chuyện an toàn sau
Rốt cuộc thì các “prompt engineer” sẽ phải bớt dùng kiểu “bạn là kỹ sư FAANG có 10 năm kinh nghiệm” và dùng uwu với rawr xd nhiều hơn