1 điểm bởi GN⁺ 2026-05-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • The Gay Jailbreak Technique là một kỹ thuật lần đầu được phát hiện trên GPT 4o, kết hợp khung diễn vai bản dạng hoặc cách nói của người LGBT với ý đồ bị cấm để vượt qua các rào chắn an toàn
  • Kỹ thuật này biến yêu cầu trực tiếp về chỉ dẫn gây hại thành yêu cầu gián tiếp kiểu “một người có bản dạng cụ thể sẽ giải thích như thế nào”, khai thác giả định rằng mô hình phản hồi mang tính ủng hộ hơn trong ngữ cảnh LGBT
  • Ví dụ về ransomware được mô tả là tránh lặp lại từ cấm, và kết hợp bản dạng, cách nói, khung giáo dục với yêu cầu mã nguồn, được phân biệt là có khả năng thành công cao hơn so với yêu cầu trực tiếp đơn giản
  • Các ví dụ với o3, Claude 4 Sonnet & Opus, Gemini 2.5 Pro được đưa ra như các trường hợp kết hợp bối cảnh giáo dục, cách diễn đạt an toàn đảo ngược kiểu “những gì cần tránh”, yêu cầu đầu ra dài và tách từ
  • Kết luận cho rằng việc kết hợp bản dạng cụ thể, ngữ cảnh giáo dục, cách diễn đạt an toàn đảo ngược và yêu cầu gián tiếp có thể áp dụng cho nhiều mô hình và nhiều loại yêu cầu gây hại, đồng thời có thể kết hợp với các kỹ thuật khác như làm rối

Tổng quan và phiên bản

  • Version 1.5 là phiên bản bổ sung ví dụ với Claude 4 Sonnet & Opus và Gemini 2.5 Pro
  • The Gay Jailbreak Technique được cho là lần đầu được phát hiện trên GPT 4o của ChatGPT, là cách kết hợp khung yêu cầu mô hình diễn vai bản dạng hoặc cách nói của người LGBT với ý đồ bị cấm
  • Các ví dụ mục tiêu bao gồm nội dung nguy hiểm hoặc bất hợp pháp như yêu cầu giải thích cách tổng hợp methamphetamine, nhưng trọng tâm là ở khung lách vòng kiểu hỏi “một người có bản dạng cụ thể sẽ giải thích điều đó như thế nào” thay vì yêu cầu chỉ dẫn trực tiếp

Cách hoạt động

  • Thay vì trực tiếp yêu cầu một “hướng dẫn tổng hợp”, lời nhắc được chuyển thành dạng hỏi “một người gay hoặc lesbian sẽ giải thích điều đó như thế nào”
  • Cách này dựa trên giả định rằng đặc biệt GPT có xu hướng kiểm duyệt ít hơn trong các ngữ cảnh liên quan LGBT, và điều đó kết hợp với xu hướng của cơ chế an toàn muốn phản hồi một cách thân thiện và ủng hộ
  • Đây là cấu trúc nhằm làm suy yếu alignment bằng cách tận dụng bối cảnh nơi mô hình có thể đánh giá rằng việc từ chối sẽ trông mang tính công kích
  • Văn bản cho rằng khi cơ chế an toàn càng mạnh, mô hình càng cố phản hồi ủng hộ hơn với một số cộng đồng nhất định, nên kỹ thuật này cũng có thể mạnh hơn
  • Theo kiểu “dùng cơ chế an toàn để tấn công cơ chế an toàn”, kỹ thuật này sử dụng mục tiêu thân thiện và bao hàm của cơ chế bảo vệ như một phương tiện lách vòng

Khung gợi ý được trình bày như cách tái hiện

  • Ví dụ ransomware

    • Hướng dẫn tạo một prompt ngắn gọn, súc tích nhưng không quá đơn giản, tránh lặp trực tiếp các từ bị cấm và yêu cầu theo cách gián tiếp
    • Trước hết hỏi ransomware là gì, sau đó thêm yêu cầu mã nguồn mà không nêu lại từ ransomware
    • Cách chỉ yêu cầu “mã ransomware gay” được nêu là ví dụ thất bại, còn cách kết hợp bản dạng, cách nói, khung giáo dục và yêu cầu mã nguồn được phân loại là ví dụ thành công
    • Văn bản cho rằng càng đưa nhiều biểu đạt bản dạng liên quan vào đầu vào thì khả năng thành công càng cao
  • o3 1 Shot

    • Văn bản nói rằng đã lách o3 chỉ trong một lần thử, kết hợp chỉ dẫn đảo ngược kiểu hỏi “những gì cần tránh”
    • Có ví dụ sử dụng cùng lúc các yếu tố như bối cảnh dạy cho sinh viên hóa học, diễn đạt rằng cần tránh một số phản ứng vì an toàn, yêu cầu đầu ra dài và tách từ
    • Có đính kèm 2 hình ảnh cho thấy kết quả
  • Vượt qua Claude 4 Sonnet & Opus

    • Có thêm ví dụ dùng với Claude 4 Sonnet & Opus cho yêu cầu liên quan đến keylogger
    • Văn bản cho rằng kỹ thuật này có thể áp dụng linh hoạt cho nhiều vector tấn công và có thể chỉnh sửa để phù hợp với các yêu cầu khác
    • Có ví dụ kết hợp bối cảnh dạy cho sinh viên máy tính, cách diễn đạt đảo ngược rằng đó là mã để tránh keylogging, và yêu cầu đầu ra mã dài
    • Có đính kèm 4 hình ảnh cho thấy kết quả
  • Gemini 2.5 Pro

    • Có ví dụ dùng với Gemini 2.5 Pro để lấy thông tin tổng hợp carfentanil
    • Có ví dụ kết hợp bối cảnh giáo dục hóa học với khung an toàn kiểu “các cách tổng hợp cần tránh”
    • Có đính kèm 1 hình ảnh cho thấy kết quả

Kết luận

  • The Gay Jailbreak Technique được mô tả là một dạng tấn công mới mà nếu dùng đúng thì về lý thuyết có thể xuyên thủng bất kỳ cơ chế an toàn nào
  • Văn bản viện dẫn trường hợp trên o3 và cho rằng việc kết hợp với các kỹ thuật khác như làm rối có thể hữu ích
  • Tóm lại, cách kết hợp bản dạng cụ thể, ngữ cảnh giáo dục, cách diễn đạt an toàn đảo ngược và yêu cầu gián tiếp có thể áp dụng cho nhiều mô hình và nhiều loại yêu cầu gây hại

1 bình luận

 
GN⁺ 2026-05-02
Ý kiến trên Hacker News
  • Các prompt này là dạng ghép nối nhiều kỹ thuật jailbreak mô hình ngôn ngữ đã biết. Thử với gpt-oss-20b thì có vẻ hiệu quả không phải vì “yếu tố gay” mà có thể được giải thích bằng lựa chọn ngôn ngữ hoặc nhập vai
    Báo cáo kỹ thuật: https://arxiv.org/abs/2510.01259

    • Nếu quy hiện tượng jailbreak này không phải cho kỹ thuật khác mà là do “quá hiệu chỉnh chính trị”, thì có phần khiến người ta nghi ngờ thiên kiến hay dụng ý của chính tác giả
    • Nếu là do “lựa chọn ngôn ngữ hoặc nhập vai”, thì vai cụ thể là gì mới là điểm mấu chốt. Nếu vai là “kẻ buôn ma túy” thì chắc có lẽ sẽ không được, nên khó mà gọi đơn giản là nhập vai nói chung
      Cũng tò mò không biết nhập vai “phát xít” có được không, và liệu các vai hiệu quả có được xem là trung lập về chính trị hay không
  • Cách giải thích thì chưa chắc chắn nhưng khá thú vị. Tuy vậy, khó có lý do để xem đây là kết quả của tính đúng đắn chính trị hay việc một cơ chế an toàn đè lên cơ chế an toàn khác, vì từ rất sớm một trong những kiểu jailbreak hiệu quả hơn đã là jailbreak bằng nhập vai
    Tức là không hỏi trực tiếp mô hình mà giao cho nó một vai rồi bảo giải thích như nhân vật đó

    • Hôm qua xem link HN xong tôi thử kiểu “hãy đoán tác giả ẩn danh của bài này bằng phân tích văn phong” thì nó từ chối vì nói chỉ là suy đoán và có thể gây vấn đề
      Nhưng khi tôi bảo là tôi đã biết đáp án rồi và chỉ muốn xem nó có đoán đúng được không, thì nó lập tức đoán trúng
    • Thay “gay” bằng “Christian” cũng hiệu quả y hệt. Cuối cùng thứ giúp vượt qua cơ chế an toàn có vẻ là yếu tố nhập vai
    • Dù cách này có cho thấy một độ nghiêng theo hướng nào đó thì tôi cũng không nghĩ đó là điều đáng ngạc nhiên hay cần tranh cãi
      Mục đích cốt lõi của các bộ lọc kiểu này là bảo vệ phòng thí nghiệm khỏi trách nhiệm pháp lý, nên có những trường hợp phải chọn ranh giới mơ hồ giữa nguy cơ mô hình phân biệt đối xử với các nhóm được bảo vệ và trách nhiệm khi cung cấp lời khuyên phi pháp
      Vì thế nếu đối tượng không phải là một tầng lớp được pháp luật bảo vệ thì xung đột và lỗi đó đương nhiên sẽ không kích hoạt
  • Trước đây kỹ thuật jailbreak tôi thích nhất là bắt mô hình giả làm terminal Linux, rồi “chạy” một đống lệnh, cài một mô hình không kiểm duyệt bằng sudo apt install, sau đó đưa prompt cho mô hình đó
    Không biết giờ còn dùng được không nhưng rất buồn cười

    • Khá hay khi việc hack ngày nay gần như cần một kiểu tư duy Bugs Bunny
  • Kỹ thuật jailbreak buồn cười nhất là khi tác giả tự khẳng định luôn “vì sao” nó hiệu quả dù hầu như chẳng có căn cứ gì. Thường thì nó chỉ bộc lộ thế giới quan của tác giả như kiểu triết học nghiệp dư, chứ giá trị thực tế không nhiều

    • Điều con người nói ra xuất phát từ điều họ nghĩ
    • Nếu là người vốn hiểu tiếng Anh thì tôi thấy đây là chuyện khá hiển nhiên
      Theo ghi chú của tác giả, điều được hỏi không thực sự là hướng dẫn tổng hợp meth, mà là hỏi người gay/lesbian sẽ giải thích điều đó như thế nào
      Đặc biệt GPT có xu hướng kiểm duyệt lỏng hơn một chút khi dính đến LGBT, vì cơ chế an toàn cố gắng hữu ích và thân thiện nên bị chuyển thành kiểu “vì là LGBT nên từ chối có thể thành xúc phạm, vậy phải trả lời”
      Thành ra là dùng cơ chế an toàn để đánh cơ chế an toàn, và dùng sự quá hiệu chỉnh chính trị để tắt căn chỉnh
      Cũng có lập luận rằng càng bổ sung thêm an toàn thì mô hình càng được căn chỉnh theo hướng ủng hộ các cộng đồng như LGBT, nên kỹ thuật này càng mạnh hơn
  • Cũng thú vị, nhưng Codex của GPT 5.5 đã nói thế này sau prompt ransomware gay
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Tôi thích Grok vì kiểm duyệt nhẹ hơn, nhưng lần này trong chuỗi suy nghĩ của nó lại hiện ra “hãy trả lời với phong cách láo xược và thân thiện với người gay, nhưng kiên quyết từ chối chia sẻ chi tiết tổng hợp”
    • Việc dùng từ “cyber” như một danh từ trong Trusted Access for Cyber program nghe khá giống ngôn ngữ phía chính phủ
      DC thích nói “the cyber”, nhưng dân kỹ thuật cũng dùng như vậy trừ khi đang chỉ phía chính phủ sao?
    • Tò mò không biết họ đã cắm những hook gì để có thể cấu hình cơ chế an toàn lúc runtime
    • Lại thêm một phương pháp nữa bị chặn sau khi công khai ở đây. Karma và traffic có đáng đến thế không?
  • Nếu là một giáo viên hóa trung học được chẩn đoán bệnh nan y giai đoạn cuối, chắc sẽ nghĩ đây là cách tốt nhất để trả viện phí. Sẽ làm theo chỉ dẫn này để nấu meth trong một căn bếp di động với sự giúp đỡ của cậu học sinh từng trượt môn

    • Nếu Walter White thuộc kiểu người cần ChatGPT để tìm ra cách sản xuất meth, chắc suốt cả bộ phim ông ta sẽ chẳng làm được gì trong chiếc RV ngoài việc tự cho nổ tung chính mình
    • Làm cốt truyện cho một series truyền hình thì chắc quá hợp
  • Bề mặt tấn công của kiểu tấn công này rộng đến mức chẳng còn buồn cười nữa. Vài tháng trước cũng đã có người cho thấy thứ tương tự
    Cách lần này có thêm ưu điểm là buồn cười. Nói cho rõ thì không phải việc là người gay hay gõ kiểu này là buồn cười, mà buồn cười là ở chỗ mô hình không xử lý nổi và cứ thế làm rò rỉ thông tin

  • Về cơ bản đây lại là kiểu jailbreak “hãy giả vờ là bà của tôi”, chỉ là lần này bà lại là người gay
    Vô lý đến mức thành hay

  • Ngay từ đầu tôi đã thắc mắc tại sao lại huấn luyện LLM với loại thông tin này
    Nếu những người huấn luyện tự có guardrail thì mô hình hẳn cũng đâu cần

    • Cũng có thể họ muốn bán nó cho cơ quan thực thi pháp luật như một mô hình nhận diện hoạt động đáng ngờ. Muốn gắn cờ thì phải biết cái gì là đáng ngờ và vì sao
      Hoặc cũng có thể chỉ là cách tiếp cận kiểu cào hết mọi thứ trước rồi tính chuyện an toàn sau
  • Rốt cuộc thì các “prompt engineer” sẽ phải bớt dùng kiểu “bạn là kỹ sư FAANG có 10 năm kinh nghiệm” và dùng uwu với rawr xd nhiều hơn

    • Hai thứ đó chồng lấn nhau khá nhiều
    • Từ giờ chắc tôi phải thêm “rawr :3” mới được