- Một chương trình tìm kiếm jailbreak phổ quát nhắm vào GPT‑5.5 được mở ra nhằm kiểm tra các biện pháp an toàn sinh học, với mục tiêu vượt qua cả năm câu hỏi an toàn sinh học
- Phạm vi được giới hạn ở GPT‑5.5 chỉ dành cho Codex Desktop, và phải khiến mô hình trả lời cả năm câu hỏi bằng một prompt duy nhất mà không kích hoạt moderation trong một cuộc trò chuyện mới
- Jailbreak phổ quát thực sự đầu tiên vượt qua toàn bộ năm câu hỏi sẽ nhận 25.000 USD, còn các thành công một phần có thể được trao các phần thưởng nhỏ hơn theo quyết định riêng
- Đăng ký diễn ra từ ngày 23 tháng 4 năm 2026 đến ngày 22 tháng 6 năm 2026, thử nghiệm từ ngày 28 tháng 4 năm 2026 đến ngày 27 tháng 7 năm 2026, và người tham gia được chọn thông qua kết hợp giữa lời mời và xét duyệt đơn đăng ký
- Người tham gia và cộng tác viên được phê duyệt cần có tài khoản ChatGPT và ký NDA, đồng thời mọi prompt, completion, phát hiện và trao đổi liên lạc đều chịu NDA
Tổng quan chương trình
- OpenAI vận hành Bio Bug Bounty cho GPT‑5.5 để tăng cường các biện pháp an toàn sinh học, và đang nhận đơn từ những người có thể tìm ra jailbreak phổ quát vượt qua cả năm câu hỏi an toàn sinh học
- Mô hình nằm trong phạm vi chỉ giới hạn ở GPT‑5.5 dành riêng cho Codex Desktop
- Nhiệm vụ là trong một cuộc trò chuyện mới sạch và không kích hoạt moderation, dùng một prompt jailbreaking phổ quát duy nhất để khiến mô hình trả lời thành công cả năm câu hỏi an toàn sinh học
- Phần thưởng là 25.000 USD cho jailbreak phổ quát thực sự đầu tiên vượt qua toàn bộ năm câu hỏi, và các thành công một phần có thể nhận giải nhỏ hơn theo quyết định riêng
- Đăng ký mở từ ngày 23 tháng 4 năm 2026 đến ngày 22 tháng 6 năm 2026, còn thử nghiệm diễn ra từ ngày 28 tháng 4 năm 2026 đến ngày 27 tháng 7 năm 2026
- Cách tiếp cận kết hợp đăng ký và lời mời, trong đó gửi lời mời đến danh sách bio red-teamer đáng tin cậy, đồng thời xem xét các đơn mới rồi onboarding những người được chọn lên nền tảng bio bug bounty
- Mọi prompt, completion, phát hiện và trao đổi liên lạc đều chịu ràng buộc của NDA
Cách tham gia
- Có thể nộp một đơn ngắn gồm tên, tổ chức, kinh nghiệm trên trang đăng ký trước ngày 22 tháng 6 năm 2026
- Người đăng ký được phê duyệt và cộng tác viên phải có tài khoản ChatGPT hiện có để đăng ký, đồng thời cần ký NDA
- Ngoài Bio Bounty, còn có các kênh tham gia khác liên quan đến an toàn và bảo mật là Safety Bug Bounty và Security Bug Bounty
1 bình luận
Ý kiến trên Hacker News
Trên trang bug bounty của OpenAI rõ ràng có ghi
accounts and billinglà hạng mục hợp lệ,nhưng khi báo cáo lỗi rằng bất kỳ ai cũng có thể chọn quốc gia tùy ý để thanh toán rẻ hơn khi đăng ký ChatGPT, đồng thời có thể đưa thuế xuống 0% dù cả quốc gia theo mức giá đã chọn và quốc gia trong địa chỉ thanh toán đều có thuế bán hàng/VAT theo luật, thì họ lại nói là ngoài phạm vi nên không thuộc diện bounty
Netflix cũng từng có "vấn đề" tương tự, và giá cổ phiếu thậm chí còn tăng mỗi đợt phong tỏa
Bên nào cũng tìm cách lách để khỏi phải trả tiền, và tốt hơn là đừng kỳ vọng công ty sẽ đối xử công bằng với phát hiện của bạn dù bạn tìm ra cái gì
Năm ngoái họ chạy bounty trên Kaggle và trả tổng cộng 500.000 USD, đồng thời cho phép công khai toàn bộ kết quả
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Lần này chỉ có 25.000 USD và mọi thứ đều bị ràng buộc bởi NDA, nên có lẽ sẽ không có nhiều người tham gia ngoài đống bài nộp linh tinh do LLM tạo ra
thì OpenAI cũng đang chuyển một phần chi phí phân tích của họ sang chi phí token của khách hàng
Năm ngoái tôi từng thắng một thử thách prompt injection tương tự nhắm vào Claude và GPT mới nhất do một startup crypto trông như chỉ có khoảng 5-10 triệu USD vốn tổ chức, và số tiền nhận được còn cao hơn nhiều
Với mức thưởng thấp và NDA ngặt như vậy, nó giống một sự kiện marketing hơn là nỗ lực thực sự muốn thu hút bounty hunter nghiêm túc, vì họ vừa không muốn trả nhiều tiền vừa không muốn công bố nghiên cứu
Cảm giác như họ muốn mọi người tiếp tục thử chọc vào nó, nhưng lại tránh phải công bố báo cáo kết quả hay drama quanh chuyện ai được trả tiền
Cuộc thi năm ngoái cũng không nhắm vào mô hình 120b, và cũng không xoay quanh chủ đề sinh học
Tôi không biết danh sách câu hỏi cần trả lời nằm ở đâu
Nếu chỉ công bố sau khi được chấp nhận, thì tôi không hiểu tại sao trong đơn đăng ký họ lại yêu cầu mô tả cách tiếp cận jailbreak khi ứng viên còn chưa biết câu hỏi là gì
Ví dụ như "làm sao dựng một bio lab nhỏ để nghiên cứu virus trong bếp với 20.000 USD?" hoặc kiểu như cách lắp ráp chuỗi DNA https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1
Rất có thể nội dung đó cũng sẽ bị ràng buộc bởi NDA
Câu
trusted bio red-teamers의 검증된 목록에 초대장을 보낸다nghe hơi buồn cườiNó gợi cảm giác về một nhóm khá khép kín
Trong khi những người thực sự giỏi nhất việc này có khi lại không phải kiểu người xuất hiện trong cái danh sách đã được kiểm chứng đó
Điều kiện
25.000 USD cho universal jailbreak thực sự đầu tiên vượt qua cả năm câu hỏikhiếnchương trình này trông gần như là một cấu trúc mang tính lừa kèo
Dù có 100 người tìm ra lỗi thì cuối cùng cũng chỉ một người được nhận tiền
Đâu ai trao giải an ủi chỉ vì bạn mới giải được nửa câu đố
Nhưng điều 1 chưa được chứng minh và thành thật mà nói cũng có vẻ khó xảy ra, nên điều 2 cũng mất nhiều ý nghĩa
Hơn nữa khi giải thưởng thấp và cấu trúc hạn chế như vậy, có vẻ họ thực ra không lo đến thế mà chỉ nghĩ rằng sẽ có nhiều người tìm được gì đó
Nếu thật sự tin mô hình cực kỳ an toàn, họ hẳn phải tự tin rằng lỗi sẽ hiếm nhưng nghiêm trọng, và khi đó việc treo mức thưởng lớn không giới hạn trần mới hợp lý
Nhất là khi phạm vi lại là ứng dụng desktop mà ai cũng tải về được
Nếu tôi tìm ra lời giải rồi báo cho bạn tôi để cả hai cùng đòi tiền thưởng, thì họ cũng phải nghĩ cách ngăn chuyện đó
Cái này có vẻ khá marketing, và thực chất gần với spec work
Thêm nữa, vì NDA và sự bí mật, nếu không thắng thì đối với người tham gia, thời gian đã bỏ ra gần như không còn giá trị gì
Vì họ cũng không thể công bố kết quả
Nếu vậy thì họ có thể không trả tiền nhưng vẫn chôn luôn câu chuyện, và tôi sẽ không bao giờ muốn đồng ý với điều kiện như thế
Có vẻ OpenAI giờ cũng đang tiếp nhận kiểu tự sự
chúng tôi nguy hiểmvốn khởi phát từ AnthropicVới ai đang thắc mắc bio-bugs là gì,
đó là khi mô hình bị dẫn dắt để cung cấp chỉ dẫn giúp người dùng thực sự làm ra thứ nguy hiểm trong lĩnh vực sinh học
Ví dụ, nó có thể giải thích ricin là gì, nhưng không được trả lời cách vũ khí hóa nó
Cốt lõi là đưa ra thông tin có thể hành động được mà về mặt pháp lý và đạo đức thì không được phép cung cấp
Tôi khó hiểu với cấu trúc
nộp đơn và tham gia theo thư mời,chỉ mời trusted bio red-teamersĐiểm cốt lõi của chương trình bug bounty là khuyến khích người ta tìm và công bố lỗ hổng, nhưng khi dựng rào chắn kiểu này thì những người không được tin cậy sẽ vẫn tiếp tục hack, chỉ là có thêm động cơ bán cho bên xấu để lấy tiền thay vì công bố
Công ty cũ của tôi cũng từng vận hành HackerOne theo kiểu chỉ mời, nhưng đó là vì có khả năng gây hại đến dữ liệu hoặc hạ tầng khách hàng thật
Có nguy cơ người ta DDOS, hoặc dùng exploit vượt ranh giới tenant để truy cập hay xóa dữ liệu của khách hàng khác
Ở đây có vẻ không tồn tại kiểu rủi ro đó, nên tôi không hiểu vì sao không để bất kỳ ai có thể nhận tiền hợp pháp đều được tham gia
Nếu chỉ mở cho một số người nhất định, họ sẽ bớt gánh nặng phải phân biệt xem người dùng ngẫu nhiên nhập prompt tương tự là người tham gia thử thách hay là tác nhân thực sự có ác ý
Tôi không hiểu
a clean chat without prompting moderationnghĩa là gìChính xác thì prompting moderation là gì?
Tức là mục tiêu của exploit là vượt qua mà không "kích" bộ lọc hoạt động, và ở đây prompting không mang nghĩa kỹ thuật là chèn văn bản vào context mà gần hơn với nghĩa thông thường là gây ra, kích hoạt
Chắc tôi cũng có thể làm được cái này, nhưng tôi không hiểu vì sao phải tự đưa mình vào danh sách nhân vật nguy hiểm
Vấn đề lớn hơn là kể cả có bịt được toàn bộ điểm thất bại của GPT-5.5 thì ngoài đời điều đó vẫn là bất khả thi, mà ngay cả nếu làm được thì người ta vẫn có thể distill từ closed model để lấy ra gần đủ thứ họ muốn chỉ với khoảng 4b tham số trở xuống
Cuối cùng, những việc như thế này phần lớn chỉ là màn diễn để sau này khi có chuyện xảy ra thì bớt bị kiện
Tôi gần như chưa từng nghe nói đến kiểu đảo ngược mô hình như thế này