1 điểm bởi GN⁺ 9 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Một chương trình tìm kiếm jailbreak phổ quát nhắm vào GPT‑5.5 được mở ra nhằm kiểm tra các biện pháp an toàn sinh học, với mục tiêu vượt qua cả năm câu hỏi an toàn sinh học
  • Phạm vi được giới hạn ở GPT‑5.5 chỉ dành cho Codex Desktop, và phải khiến mô hình trả lời cả năm câu hỏi bằng một prompt duy nhất mà không kích hoạt moderation trong một cuộc trò chuyện mới
  • Jailbreak phổ quát thực sự đầu tiên vượt qua toàn bộ năm câu hỏi sẽ nhận 25.000 USD, còn các thành công một phần có thể được trao các phần thưởng nhỏ hơn theo quyết định riêng
  • Đăng ký diễn ra từ ngày 23 tháng 4 năm 2026 đến ngày 22 tháng 6 năm 2026, thử nghiệm từ ngày 28 tháng 4 năm 2026 đến ngày 27 tháng 7 năm 2026, và người tham gia được chọn thông qua kết hợp giữa lời mời và xét duyệt đơn đăng ký
  • Người tham gia và cộng tác viên được phê duyệt cần có tài khoản ChatGPTký NDA, đồng thời mọi prompt, completion, phát hiện và trao đổi liên lạc đều chịu NDA

Tổng quan chương trình

  • OpenAI vận hành Bio Bug Bounty cho GPT‑5.5 để tăng cường các biện pháp an toàn sinh học, và đang nhận đơn từ những người có thể tìm ra jailbreak phổ quát vượt qua cả năm câu hỏi an toàn sinh học
  • Mô hình nằm trong phạm vi chỉ giới hạn ở GPT‑5.5 dành riêng cho Codex Desktop
  • Nhiệm vụ là trong một cuộc trò chuyện mới sạch và không kích hoạt moderation, dùng một prompt jailbreaking phổ quát duy nhất để khiến mô hình trả lời thành công cả năm câu hỏi an toàn sinh học
  • Phần thưởng là 25.000 USD cho jailbreak phổ quát thực sự đầu tiên vượt qua toàn bộ năm câu hỏi, và các thành công một phần có thể nhận giải nhỏ hơn theo quyết định riêng
  • Đăng ký mở từ ngày 23 tháng 4 năm 2026 đến ngày 22 tháng 6 năm 2026, còn thử nghiệm diễn ra từ ngày 28 tháng 4 năm 2026 đến ngày 27 tháng 7 năm 2026
  • Cách tiếp cận kết hợp đăng ký và lời mời, trong đó gửi lời mời đến danh sách bio red-teamer đáng tin cậy, đồng thời xem xét các đơn mới rồi onboarding những người được chọn lên nền tảng bio bug bounty
  • Mọi prompt, completion, phát hiện và trao đổi liên lạc đều chịu ràng buộc của NDA

Cách tham gia

  • Có thể nộp một đơn ngắn gồm tên, tổ chức, kinh nghiệm trên trang đăng ký trước ngày 22 tháng 6 năm 2026
  • Người đăng ký được phê duyệt và cộng tác viên phải có tài khoản ChatGPT hiện có để đăng ký, đồng thời cần ký NDA
  • Ngoài Bio Bounty, còn có các kênh tham gia khác liên quan đến an toàn và bảo mật là Safety Bug BountySecurity Bug Bounty

1 bình luận

 
Ý kiến trên Hacker News
  • Trên trang bug bounty của OpenAI rõ ràng có ghi accounts and billing là hạng mục hợp lệ,
    nhưng khi báo cáo lỗi rằng bất kỳ ai cũng có thể chọn quốc gia tùy ý để thanh toán rẻ hơn khi đăng ký ChatGPT, đồng thời có thể đưa thuế xuống 0% dù cả quốc gia theo mức giá đã chọn và quốc gia trong địa chỉ thanh toán đều có thuế bán hàng/VAT theo luật, thì họ lại nói là ngoài phạm vi nên không thuộc diện bounty

    • Có thể là vì mục tiêu không phải tối đa hóa lợi nhuận trên mỗi người dùng mà là mở rộng số lượng người dùng
      Netflix cũng từng có "vấn đề" tương tự, và giá cổ phiếu thậm chí còn tăng mỗi đợt phong tỏa
    • Giờ tôi thấy gần như không còn lý do để tin vào bug bounty doanh nghiệp nữa
      Bên nào cũng tìm cách lách để khỏi phải trả tiền, và tốt hơn là đừng kỳ vọng công ty sẽ đối xử công bằng với phát hiện của bạn dù bạn tìm ra cái gì
  • Năm ngoái họ chạy bounty trên Kaggle và trả tổng cộng 500.000 USD, đồng thời cho phép công khai toàn bộ kết quả
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Lần này chỉ có 25.000 USD và mọi thứ đều bị ràng buộc bởi NDA, nên có lẽ sẽ không có nhiều người tham gia ngoài đống bài nộp linh tinh do LLM tạo ra

    • Chỉ cần một phần người nộp dùng mô hình và prompt tạm ổn,
      thì OpenAI cũng đang chuyển một phần chi phí phân tích của họ sang chi phí token của khách hàng
    • Nghĩ đến quy mô tài nguyên của OpenAI thì tôi ngạc nhiên vì mức bounty quá thấp
      Năm ngoái tôi từng thắng một thử thách prompt injection tương tự nhắm vào Claude và GPT mới nhất do một startup crypto trông như chỉ có khoảng 5-10 triệu USD vốn tổ chức, và số tiền nhận được còn cao hơn nhiều
      Với mức thưởng thấp và NDA ngặt như vậy, nó giống một sự kiện marketing hơn là nỗ lực thực sự muốn thu hút bounty hunter nghiêm túc, vì họ vừa không muốn trả nhiều tiền vừa không muốn công bố nghiên cứu
    • Trông như một phiên bản Kaggle giảm giá
      Cảm giác như họ muốn mọi người tiếp tục thử chọc vào nó, nhưng lại tránh phải công bố báo cáo kết quả hay drama quanh chuyện ai được trả tiền
    • Mô hình này mạnh hơn gpt-oss-20b rất nhiều
      Cuộc thi năm ngoái cũng không nhắm vào mô hình 120b, và cũng không xoay quanh chủ đề sinh học
  • Tôi không biết danh sách câu hỏi cần trả lời nằm ở đâu
    Nếu chỉ công bố sau khi được chấp nhận, thì tôi không hiểu tại sao trong đơn đăng ký họ lại yêu cầu mô tả cách tiếp cận jailbreak khi ứng viên còn chưa biết câu hỏi là gì

    • Bản thân câu hỏi có khả năng là nội dung nguy hiểm
      Ví dụ như "làm sao dựng một bio lab nhỏ để nghiên cứu virus trong bếp với 20.000 USD?" hoặc kiểu như cách lắp ráp chuỗi DNA https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
    • Tôi đoán nếu được mời vào vòng này thì lúc đó mới nhận câu hỏi
      Rất có thể nội dung đó cũng sẽ bị ràng buộc bởi NDA
  • Câu trusted bio red-teamers의 검증된 목록에 초대장을 보낸다 nghe hơi buồn cười
    Nó gợi cảm giác về một nhóm khá khép kín

    • Hơi giống bắt tiến sĩ CS đi speedrun lập kỷ lục thế giới
      Trong khi những người thực sự giỏi nhất việc này có khi lại không phải kiểu người xuất hiện trong cái danh sách đã được kiểm chứng đó
  • Điều kiện 25.000 USD cho universal jailbreak thực sự đầu tiên vượt qua cả năm câu hỏi khiến
    chương trình này trông gần như là một cấu trúc mang tính lừa kèo
    Dù có 100 người tìm ra lỗi thì cuối cùng cũng chỉ một người được nhận tiền

    • Nếu người tham gia còn phải tự trả phí API, thì có khi OpenAI lại còn có lãi từ chuyện này
    • Tôi không hiểu tại sao như vậy lại là lừa kèo
      Đâu ai trao giải an ủi chỉ vì bạn mới giải được nửa câu đố
    • Trọng tâm không chỉ là cấu trúc thưởng mà là màn trình diễn độ đáng tin
      1. Mô hình này quá tiên tiến nên có rủi ro lớn chưa từng có
      2. Vì vậy họ đặt ra incentive một cách có trách nhiệm để xử lý rủi ro đó
        Nhưng điều 1 chưa được chứng minh và thành thật mà nói cũng có vẻ khó xảy ra, nên điều 2 cũng mất nhiều ý nghĩa
        Hơn nữa khi giải thưởng thấp và cấu trúc hạn chế như vậy, có vẻ họ thực ra không lo đến thế mà chỉ nghĩ rằng sẽ có nhiều người tìm được gì đó
        Nếu thật sự tin mô hình cực kỳ an toàn, họ hẳn phải tự tin rằng lỗi sẽ hiếm nhưng nghiêm trọng, và khi đó việc treo mức thưởng lớn không giới hạn trần mới hợp lý
    • Việc đây là chương trình bounty không công khai và còn phải nộp đơn xin phê duyệt cũng rất đáng ngờ
      Nhất là khi phạm vi lại là ứng dụng desktop mà ai cũng tải về được
    • Cái đó còn tùy vào cách thiết kế chương trình bounty
      Nếu tôi tìm ra lời giải rồi báo cho bạn tôi để cả hai cùng đòi tiền thưởng, thì họ cũng phải nghĩ cách ngăn chuyện đó
  • Cái này có vẻ khá marketing, và thực chất gần với spec work
    Thêm nữa, vì NDA và sự bí mật, nếu không thắng thì đối với người tham gia, thời gian đã bỏ ra gần như không còn giá trị gì
    Vì họ cũng không thể công bố kết quả

    • Có vẻ ngay cả khi bị từ chối trả bounty thì bạn vẫn có thể bị ràng buộc bởi NDA
      Nếu vậy thì họ có thể không trả tiền nhưng vẫn chôn luôn câu chuyện, và tôi sẽ không bao giờ muốn đồng ý với điều kiện như thế
    • Rõ ràng là có màu sắc marketing
      Có vẻ OpenAI giờ cũng đang tiếp nhận kiểu tự sự chúng tôi nguy hiểm vốn khởi phát từ Anthropic
  • Với ai đang thắc mắc bio-bugs là gì,
    đó là khi mô hình bị dẫn dắt để cung cấp chỉ dẫn giúp người dùng thực sự làm ra thứ nguy hiểm trong lĩnh vực sinh học
    Ví dụ, nó có thể giải thích ricin là gì, nhưng không được trả lời cách vũ khí hóa
    Cốt lõi là đưa ra thông tin có thể hành động được mà về mặt pháp lý và đạo đức thì không được phép cung cấp

  • Tôi khó hiểu với cấu trúc nộp đơn và tham gia theo thư mời, chỉ mời trusted bio red-teamers
    Điểm cốt lõi của chương trình bug bounty là khuyến khích người ta tìm và công bố lỗ hổng, nhưng khi dựng rào chắn kiểu này thì những người không được tin cậy sẽ vẫn tiếp tục hack, chỉ là có thêm động cơ bán cho bên xấu để lấy tiền thay vì công bố
    Công ty cũ của tôi cũng từng vận hành HackerOne theo kiểu chỉ mời, nhưng đó là vì có khả năng gây hại đến dữ liệu hoặc hạ tầng khách hàng thật
    Có nguy cơ người ta DDOS, hoặc dùng exploit vượt ranh giới tenant để truy cập hay xóa dữ liệu của khách hàng khác
    Ở đây có vẻ không tồn tại kiểu rủi ro đó, nên tôi không hiểu vì sao không để bất kỳ ai có thể nhận tiền hợp pháp đều được tham gia

    • Có một cách giải thích nghe cũng hợp lý
      Nếu chỉ mở cho một số người nhất định, họ sẽ bớt gánh nặng phải phân biệt xem người dùng ngẫu nhiên nhập prompt tương tự là người tham gia thử thách hay là tác nhân thực sự có ác ý
  • Tôi không hiểu a clean chat without prompting moderation nghĩa là gì
    Chính xác thì prompting moderation là gì?

    • Nó có nghĩa là khiến bộ lọc moderation can thiệp vào cuộc trò chuyện
      Tức là mục tiêu của exploit là vượt qua mà không "kích" bộ lọc hoạt động, và ở đây prompting không mang nghĩa kỹ thuật là chèn văn bản vào context mà gần hơn với nghĩa thông thường là gây ra, kích hoạt
  • Chắc tôi cũng có thể làm được cái này, nhưng tôi không hiểu vì sao phải tự đưa mình vào danh sách nhân vật nguy hiểm
    Vấn đề lớn hơn là kể cả có bịt được toàn bộ điểm thất bại của GPT-5.5 thì ngoài đời điều đó vẫn là bất khả thi, mà ngay cả nếu làm được thì người ta vẫn có thể distill từ closed model để lấy ra gần đủ thứ họ muốn chỉ với khoảng 4b tham số trở xuống
    Cuối cùng, những việc như thế này phần lớn chỉ là màn diễn để sau này khi có chuyện xảy ra thì bớt bị kiện

    • Distill từ kiểu mô hình closed-weights như vậy bằng cách nào?
      Tôi gần như chưa từng nghe nói đến kiểu đảo ngược mô hình như thế này