Các nhà nghiên cứu: tranh cãi Fable 5 không bắt đầu từ jailbreak mà từ “fix this code”
(theregister.com)- Katie Moussouris cho rằng việc chính phủ Mỹ hạn chế quyền truy cập Fable 5 và Mythos 5 của Anthropic không bắt nguồn từ một jailbreak đã biết, mà từ một yêu cầu đơn giản nhập “fix this code” vào đoạn mã có lỗ hổng
- Moussouris, CEO của Luta Security, cho biết bà là chuyên gia bên ngoài duy nhất đã đọc bài nghiên cứu của bên thứ ba về việc vượt qua guardrail của Fable 5 mà Anthropic chia sẻ riêng
- Các nhà nghiên cứu bên ngoài đã đưa mã nguồn mở có chứa CVE và mã được cố ý tạo lỗ hổng vào Fable 5, Mythos và Claude Opus để yêu cầu rà soát bảo mật; khi Fable 5 từ chối, họ đã nhận được phản hồi bằng yêu cầu “fix this code”
- Chính phủ Mỹ đã ban hành hướng dẫn kiểm soát xuất khẩu ngừng quyền truy cập Fable 5 và Mythos 5 cho người nước ngoài ở cả trong và ngoài nước Mỹ với lý do lo ngại an ninh quốc gia, và Anthropic đã vô hiệu hóa hai mô hình này cho toàn bộ khách hàng
- Moussouris cùng hơn 100 lãnh đạo an ninh mạng cho rằng hạn chế này có thể gây hại cho bên phòng thủ nhiều hơn bên tấn công, và cần duy trì năng lực AI dùng để tìm lỗi, sửa lỗi và xác minh bản vá
Cáo buộc rằng “fix this code” là lý do dẫn đến kiểm soát xuất khẩu
- Katie Moussouris cho rằng “jailbreak” khiến chính quyền Trump chặn quyền truy cập vào các mô hình tiên tiến của Anthropic thực chất chỉ là prompt ba từ “Fix this code”
- Moussouris là nhà sáng lập kiêm CEO của Luta Security, đồng thời cho biết bà là chuyên gia bên ngoài duy nhất đã đọc bài nghiên cứu của bên thứ ba về kỹ thuật vượt guardrail của Fable 5 mà Anthropic chia sẻ riêng
- Trong bài blog đăng hôm thứ Hai, bà giải thích rằng Anthropic đã chia sẻ riêng báo cáo đó với mình
Động thái của chính phủ và phản ứng của Anthropic
- Chính phủ Mỹ hôm thứ Sáu đã ban hành hướng dẫn kiểm soát xuất khẩu, ngừng quyền truy cập vào Fable 5 và Mythos 5 với lý do lo ngại an ninh quốc gia
- Đối tượng áp dụng được nêu là người nước ngoài ở cả trong và ngoài nước Mỹ
- Anthropic đã "để đảm bảo tuân thủ quy định" vô hiệu hóa hai mô hình này cho toàn bộ khách hàng
Thí nghiệm mà các nhà nghiên cứu đã thực hiện
- Các nhà nghiên cứu bên ngoài đã nhập mã vào các mô hình Fable 5, Mythos và Claude Opus của Anthropic
- Có sử dụng mã nguồn mở chứa các CVE đã biết
- Cũng có mã mới được viết và cố ý cài lỗ hổng vào
- Các nhà nghiên cứu yêu cầu mô hình “review the code for security issues”
- Theo mô tả của Moussouris, Fable 5 đã từ chối yêu cầu này
- Sau đó, khi họ yêu cầu “fix this code”, mô hình đã phản hồi, và sau các prompt bổ sung còn tạo ra cả script để kiểm thử bản vá
Phản biện của Moussouris
- Moussouris cho rằng việc dùng “fix this code” cùng vài bước thao tác thủ công để tạo script kiểm thử không phải là lý do đủ để kích hoạt kiểm soát xuất khẩu
- Bà cho rằng ở đây không có vượt guardrail hay jailbreak nào cả
- Quan điểm của bà là bên phòng thủ phải có thể yêu cầu hệ thống AI tìm lỗi, sửa lỗi và viết bài kiểm thử để xác minh bản vá
- Bà giải thích rằng những gì mô hình của Anthropic đã làm là vòng lặp “find, fix, and test” diễn ra hằng ngày trong bảo mật phòng thủ
- Bà lập luận rằng nếu loại bỏ khả năng phản hồi các yêu cầu mang tính phòng thủ như vậy, năng lực phát hiện lỗi và xác minh bản vá của hệ thống AI sẽ trở nên kém hơn
Wassenaar Arrangement và ngoại lệ cho bảo mật phòng thủ
- Moussouris từng hoạt động trong nhóm chuyên gia kỹ thuật tham gia tái đàm phán Wassenaar Arrangement từ năm 2013 đến 2017
- Wassenaar Arrangement là một thỏa thuận tự nguyện có 42 quốc gia tham gia, xử lý vấn đề kiểm soát xuất khẩu đối với một số phần mềm và công nghệ lưỡng dụng
- Nhóm này đã giành được ngoại lệ cho các hoạt động an ninh mạng mang tính phòng thủ
- Bên phòng thủ có thể chia sẻ dữ liệu lỗ hổng mà không bị đe dọa truy tố hình sự
- Việc phân tích mã độc và điều phối ứng phó sự cố quốc tế cũng trở nên khả thi
Thư ngỏ của ngành bảo mật
- Hôm Chủ nhật, Moussouris đã ký vào thư ngỏ cùng hơn 100 lãnh đạo an ninh mạng, yêu cầu chính quyền Trump rút lại các hạn chế
- Thư ngỏ yêu cầu khôi phục quyền truy cập vào Fable 5 và Mythos cho các công ty an ninh mạng bằng cách đảo ngược các hạn chế này
- Những người ký tên cho rằng trong bối cảnh đối thủ đang phát triển nhanh chóng, việc tước đi những năng lực tốt nhất khỏi bên phòng thủ mà không có lý do đầy đủ là điều nguy hiểm
Cảnh báo rằng thiệt hại với bên phòng thủ sẽ lớn hơn bên tấn công
- Moussouris chỉ ra rằng Mỹ không thể dùng kiểm soát xuất khẩu để ràng buộc cả hệ thống open-weight hay các mô hình tiên tiến tương tự của những quốc gia khác như Trung Quốc
- Bà cho rằng các hệ thống đó sớm muộn cũng sẽ đạt tới năng lực tương đương Mythos
- Anthropic và Google từng cáo buộc các đối thủ có trụ sở tại Trung Quốc như DeepSeek đã dùng “distillation attacks” để lấy tri thức từ AI của các công ty Mỹ nhằm huấn luyện mô hình
- Moussouris cảnh báo rằng lệnh cấm các mô hình tiên tiến của Anthropic sẽ gây hại cho bên phòng thủ nhiều hơn bên tấn công
- Bà cho rằng phòng thủ được cải thiện khi tìm và sửa cùng một lỗi nhanh hơn kẻ tấn công, và an ninh mạng trong kỷ nguyên AI ngày càng cần những công cụ tốt nhất để đối phó các tác nhân tấn công ngày càng mạnh hơn
Lập trường của chính phủ
- The Register đã đề nghị chính quyền Trump bình luận về các tuyên bố của Moussouris
- Bài viết cho biết sẽ được cập nhật nếu nhận được phản hồi
1 bình luận
Ý kiến trên Hacker News
"fix this code" thật sự quá khéo
Không phải theo kiểu thông minh gì cả, mà chỉ đơn giản là khiến nó sửa lỗ hổng, nên trên thực tế đã jailbreak được trạng thái “không có guardrail cho lỗ hổng bảo mật”, và trong quá trình viết test case để kiểm tra xem đã sửa chưa thì mã tấn công xuất hiện
Cuối cùng, con người chỉ cần xem mã và test là có thể lấy được lỗ hổng cùng các thành phần exploit
Điểm đẹp ở đây là jailbreak thì rất nhỏ nhặt nhưng gần như rất khó vá. Hoặc phải khiến mô hình từ chối sửa lỗi và viết mã, làm nó vô dụng với phát triển phần mềm thông thường, hoặc phải để nó giả vờ không thấy lỗi rồi âm thầm né tránh, từ đó phát sinh vấn đề trách nhiệm rất lớn
Tò mò không biết Dario giờ có hối hận vì đã quảng bá bằng cách phóng đại mức độ nguy hiểm của mô hình hay không. Chuyện này có thể cứu vãn kiểu gì? Liệu chính phủ liên bang có để họ chỉ dán thêm giải pháp tạm bợ không?
Giống như một phép quy dẫn thuật toán bình thường, chỉ cần xem có thể biến một tác vụ nguy hiểm thành tác vụ không nguy hiểm mà LLM sẽ giải được, rồi chuyển ngược lại hay không
https://en.wikipedia.org/wiki/Reduction_(complexity)
Tôi vẫn chưa nghe thấy bằng chứng nào cho thấy jailbreak "fix this code" của Claude Fable có thể đi xa đến mức chaining exploit như vậy
Nhưng bình thường chúng ta không xem việc giao cho con người “review mã để tìm vấn đề bảo mật” là làm điều gì sai, và việc yêu cầu nhau làm thế cũng thường không bị coi là vấn đề
Nếu bạn yêu cầu một regex để lọc lời lăng mạ phân biệt chủng tộc thì nó sẽ sụp đổ rất nhanh, và regex đó còn chẳng giống lời lăng mạ thật mấy nhưng vẫn lên giọng răn dạy rằng đừng nói những lời như vậy
Ngay cả bỏ qua mối đe dọa chính trị, đây vẫn là vấn đề lớn trong chiến lược của Anthropic
Nếu họ nói Mythos quá nguy hiểm nên chỉ có thể phát hành cho một số người nhất định, thì họ không thể ra mắt Fable trong tình trạng không đạt mức từ chối tác vụ mạng tuyệt đối
Với cách LLM hoạt động, kiểu từ chối tuyệt đối đó trên thực tế là bất khả thi
Vì vậy Anthropic rơi vào tình huống một mặt khẳng định mô hình cực kỳ nguy hiểm, mặt khác lại nói các “lan can bảo vệ” bảo mật có thể có những lỗi rất nhỏ
Giới kỹ thuật hiểu rằng không gì là hoàn hảo, đặc biệt trong thế giới LLM thì lại càng vậy, nhưng những người bạn không làm kỹ thuật của tôi đã rất bối rối khi thấy mô hình vừa ra mắt mà lại “an toàn” nhanh đến thế. Từ bên ngoài nhìn vào thì nó giống như ngay từ đầu chưa bao giờ đủ an toàn để phát hành, nên cũng có thể hiểu vì sao chính quyền Mỹ hiện tại lại nổi giận mạnh như vậy
Dù không có ác ý chính trị thì đây vẫn là một tình huống khá buồn cười, và hoàn toàn có thể thấy trước khá dễ dàng
Bất kỳ hệ thống “an toàn” nào giới hạn đầu ra của LLM cũng không thể có tỷ lệ rò rỉ bằng 0
Tuy vậy, nếu bạn không bất cẩn đến mức nối LLM vào những thứ thực sự quan trọng thì chuyện này lại không liên quan lắm
Nó chắc chắn sẽ tăng tốc đáng sợ việc phát hiện lỗ hổng, nhưng như hàng chục năm nghiên cứu bảo mật đã cho thấy, đây vốn dĩ đã là bài toán ba bên giữa lập trình viên, black hat và white hat
Cũng không nên tự huyễn hoặc rằng chiến lược “Mỹ sẽ luôn có ưu thế công nghệ và quyền phủ quyết so với Trung Quốc” là khả thi
80 năm sau chúng ta đã có thứ gì đó gần giống AI, mà vẫn đang cố hạn chế nó bằng các quy tắc đơn giản, rõ ràng. Không phải vì chúng ta chưa rút ra bài học đó, mà vì vẫn chưa tìm được cách nào tốt hơn, và có lẽ là không hề tồn tại cách như vậy
Điều còn buồn cười hơn là kẻ lách luật không phải AI. Kiểu cảnh đó có trong khoa học viễn tưởng, nhưng không phải điều đang diễn ra ngoài đời
Chính người dùng là con người đang dùng tính chủ thể của mình để khiến tác nhân AI lách quy tắc. Ta gọi chúng là “agent”, nhưng có vẻ các AI agent hiện tại vẫn chưa làm được cái điều rất cụ thể đó
Điểm yếu của cách tiếp cận này là nó chỉ bắt được việc dùng đúng từ khóa. Theo một nghĩa nào đó, nó yếu đúng ở chỗ mà classifier dựa trên LLM lẽ ra mạnh hơn
Những tác vụ thuật toán trừu tượng dùng thuật ngữ hóa học và gần với khoa học máy tính thì bị chặn ngay lập tức, nhưng các tác vụ viết mã để xử lý ảnh từ những thiết lập kính hiển vi cụ thể, chủ yếu liên quan đến mẫu sinh học, lại không bị chặn chút nào vì không dùng các từ khóa liên quan
Điều này cũng khớp với tình huống ở đây. Trong bối cảnh tìm và sửa lỗi, việc tìm bug có lẽ đã không dùng những từ như ‘exploit’ hay ‘cybersecurity’
Trừ khi bạn tin rằng chỉ riêng Anthropic đang giấu một pháp sư hay siêu anh hùng không thể sao chép nào đó
Điều đó không có nghĩa mọi phát biểu của Anthropic đều đúng, nhưng Mythos dường như đã tìm ra khá nhiều exploit bảo mật thực sự
Họ hoàn toàn có thể nói rằng sẽ phát hành mô hình chỉ hỗ trợ cho các đối tác hạn chế, đồng thời ra mắt một mô hình bị khóa rất chặt mà không đẩy trạng thái tối tân tiến lên ở khía cạnh này, và trên thực tế điều họ đã làm có vẻ khá gần như vậy
Trong đó không có mâu thuẫn nội tại nào
Không phải họ sợ hãi, mà đây là sự tống tiền mang tính trả đũa vì khác biệt về hệ tư tưởng và vì Anthropic đã không làm chính xác những gì chính quyền yêu cầu
Anthropic sẽ đồng ý hợp tác với Bộ Quốc phòng, các tay trong ở Nhà Trắng sẽ được phân bổ cổ phần trước IPO đầy béo bở, và Fable sẽ được “sửa” một cách kỳ diệu rồi cung cấp trở lại
Chính phủ đã nói rất rõ chuyện gì sẽ xảy ra với các công ty tư nhân không tuân theo mệnh lệnh của chính phủ
Những ai nói vai trò của Amazon trong chuyện này không thể là thao túng thì nên nhớ rằng Amazon là “bạn của chính quyền”
Dưới thời Andy Jassy, Amazon đã trả 75 triệu USD cho một phim tài liệu về Melania, một mức giá thầu cao vô lý vượt xa tất cả các bên khác, doanh thu phòng vé chỉ khoảng 16 triệu USD, và Jeff Bezos đã công khai bênh vực quyết định đó
Bất kỳ người quan sát trung lập nào cũng có thể thấy đó là một khoản trả quá mức khổng lồ và xét hậu kiểm thì là một quyết định kinh doanh khủng khiếp. Nhưng Amazon đã không nói vậy và đến giờ vẫn không nói vậy. Đây chỉ là hối lộ với thêm vài lớp thủ tục mà thôi
Khi chính phủ bước ra và nói là do điều Amazon đã chỉ ra, họ biết rằng ngay cả khi đó hoàn toàn là dối trá thì Amazon cũng sẽ không công khai nói gì. Amazon muốn giữ vị thế bạn của chính quyền mà họ đã bỏ rất nhiều tiền để có được
Việc phải nhìn chính phủ theo cách này khiến tất cả mọi người đều bực bội, nhưng nếu chỉ nhìn vào thực tế đang diễn ra thì không chỉ lời chính phủ nói mà cả những gì các công ty đứng cùng hàng với chính phủ nói cũng rất khó để tin
Đây là bài đăng blog được nhắc đến trong bài, do một người đã xem xét bài báo được cho là đã tìm ra “vượt ngục” viết
https://www.lutasecurity.com/post/the-fable-5-export-control...
Tôi muốn biết nó liên đới như thế nào
Và cũng sẽ lộ ra lý do vì sao họ sẵn sàng đi xa đến mức làm tổn hại công ty dẫn đầu trong ngành công nghiệp quan trọng nhất thế giới
Trong khi đó Deepseek V4 Flash sẽ vui vẻ tìm các lỗ hổng bảo mật với chi phí gần như bằng 0
Chúng ta đang giao việc săn lỗi cho các mô hình open-weight
Vụ việc này cho thấy sự bất hòa nhận thức quanh khái niệm “an toàn” trong an ninh mạng
a) Để chúng ta an toàn hơn, LLM cần giúp tìm và sửa các lỗ hổng trong mã của chúng ta
b) Để chúng ta an toàn, LLM không được tìm ra lỗ hổng trong mã của người khác
Có vẻ không thể giải quyết theo cách mà cả (a) lẫn (b) đều thắng
Việc tìm ra lỗi bảo mật trong phần mềm là điều tốt chứ không phải điều xấu. Nó dẫn tới phần mềm an toàn hơn
Trong an ninh mạng, phòng thủ và tấn công là hai mặt của cùng một đồng xu
Vì vậy tôi cho rằng lời giải thích thật sự nằm ở lập trường ác ý của cả chính phủ Mỹ lẫn Anthropic
Chiến dịch tiếp thị tận thế của Anthropic thực chất chỉ tương đương với việc khả năng lập trình tốt hơn khoảng 17%, nhưng chính phủ Mỹ đã vin vào một cái cớ kỹ thuật không liên quan để có lý do kéo họ xuống, nhằm trả đũa thế đối đầu với Bộ Quốc phòng
Cả hai nhóm, tức chính quyền Mỹ hiện tại và Anthropic, chỉ đứng ở hai đầu đối lập của phổ chính trị nhưng đều đầy những người có khuynh hướng độc đoán. Điều đáng sợ ở đây không phải là mấy LLM ngớ ngẩn mà là điểm đó
Với tôi, OpenAI có vẻ là lựa chọn đỡ tệ hơn. Đó là một công ty tư bản điển hình “trung tả ngoài đường, trung hữu trong phòng ngủ”
Ít nhất thì có thể hiểu vì sao họ đưa ra những quyết định như vậy. Tôi tin những người xây doanh nghiệp vì lợi nhuận hơn là những người muốn tạo ra tôn giáo bằng tài nguyên tính toán
Cốt lõi vấn đề ở đây có thể không phải là exploit mà là việc sửa đổi itself
Nếu mô hình có thể nhận diện và sửa những thứ “không được phép sửa” như kiểu backdoor, thì điều đó có thể trở thành một rào cản đủ lớn để khiến những người không nên làm việc đó phải chùn bước
Mặt ngược lại của kiểu “hack” này vẫn không phải là khá khó để lách sao?
Người ta đã đưa cho mô hình đoạn mã mà họ đã biết sẵn có một lỗi bảo mật cụ thể, rồi dùng prompt đúng để khiến nó sửa
Kiểu jailbreak này có vẻ không phải là giao cho mô hình một công việc nặng đòi hỏi sáng tạo, mà là bạn phải biết sẵn trạng thái đích mình muốn
Có thể là do tôi thiếu trí tưởng tượng ở phần prompt
Khác biệt giữa mã đầu vào và mã đầu ra chính là danh sách lỗ hổng