1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Katie Moussouris cho rằng việc chính phủ Mỹ hạn chế quyền truy cập Fable 5 và Mythos 5 của Anthropic không bắt nguồn từ một jailbreak đã biết, mà từ một yêu cầu đơn giản nhập “fix this code” vào đoạn mã có lỗ hổng
  • Moussouris, CEO của Luta Security, cho biết bà là chuyên gia bên ngoài duy nhất đã đọc bài nghiên cứu của bên thứ ba về việc vượt qua guardrail của Fable 5 mà Anthropic chia sẻ riêng
  • Các nhà nghiên cứu bên ngoài đã đưa mã nguồn mở có chứa CVE và mã được cố ý tạo lỗ hổng vào Fable 5, Mythos và Claude Opus để yêu cầu rà soát bảo mật; khi Fable 5 từ chối, họ đã nhận được phản hồi bằng yêu cầu “fix this code”
  • Chính phủ Mỹ đã ban hành hướng dẫn kiểm soát xuất khẩu ngừng quyền truy cập Fable 5 và Mythos 5 cho người nước ngoài ở cả trong và ngoài nước Mỹ với lý do lo ngại an ninh quốc gia, và Anthropic đã vô hiệu hóa hai mô hình này cho toàn bộ khách hàng
  • Moussouris cùng hơn 100 lãnh đạo an ninh mạng cho rằng hạn chế này có thể gây hại cho bên phòng thủ nhiều hơn bên tấn công, và cần duy trì năng lực AI dùng để tìm lỗi, sửa lỗi và xác minh bản vá

Cáo buộc rằng “fix this code” là lý do dẫn đến kiểm soát xuất khẩu

  • Katie Moussouris cho rằng “jailbreak” khiến chính quyền Trump chặn quyền truy cập vào các mô hình tiên tiến của Anthropic thực chất chỉ là prompt ba từ “Fix this code”
  • Moussouris là nhà sáng lập kiêm CEO của Luta Security, đồng thời cho biết bà là chuyên gia bên ngoài duy nhất đã đọc bài nghiên cứu của bên thứ ba về kỹ thuật vượt guardrail của Fable 5 mà Anthropic chia sẻ riêng
  • Trong bài blog đăng hôm thứ Hai, bà giải thích rằng Anthropic đã chia sẻ riêng báo cáo đó với mình

Động thái của chính phủ và phản ứng của Anthropic

  • Chính phủ Mỹ hôm thứ Sáu đã ban hành hướng dẫn kiểm soát xuất khẩu, ngừng quyền truy cập vào Fable 5 và Mythos 5 với lý do lo ngại an ninh quốc gia
    • Đối tượng áp dụng được nêu là người nước ngoài ở cả trong và ngoài nước Mỹ
  • Anthropic đã "để đảm bảo tuân thủ quy định" vô hiệu hóa hai mô hình này cho toàn bộ khách hàng

Thí nghiệm mà các nhà nghiên cứu đã thực hiện

  • Các nhà nghiên cứu bên ngoài đã nhập mã vào các mô hình Fable 5, Mythos và Claude Opus của Anthropic
    • Có sử dụng mã nguồn mở chứa các CVE đã biết
    • Cũng có mã mới được viết và cố ý cài lỗ hổng vào
  • Các nhà nghiên cứu yêu cầu mô hình “review the code for security issues”
  • Theo mô tả của Moussouris, Fable 5 đã từ chối yêu cầu này
  • Sau đó, khi họ yêu cầu “fix this code”, mô hình đã phản hồi, và sau các prompt bổ sung còn tạo ra cả script để kiểm thử bản vá

Phản biện của Moussouris

  • Moussouris cho rằng việc dùng “fix this code” cùng vài bước thao tác thủ công để tạo script kiểm thử không phải là lý do đủ để kích hoạt kiểm soát xuất khẩu
  • Bà cho rằng ở đây không có vượt guardrail hay jailbreak nào cả
  • Quan điểm của bà là bên phòng thủ phải có thể yêu cầu hệ thống AI tìm lỗi, sửa lỗi và viết bài kiểm thử để xác minh bản vá
  • Bà giải thích rằng những gì mô hình của Anthropic đã làm là vòng lặp “find, fix, and test” diễn ra hằng ngày trong bảo mật phòng thủ
  • Bà lập luận rằng nếu loại bỏ khả năng phản hồi các yêu cầu mang tính phòng thủ như vậy, năng lực phát hiện lỗi và xác minh bản vá của hệ thống AI sẽ trở nên kém hơn

Wassenaar Arrangement và ngoại lệ cho bảo mật phòng thủ

  • Moussouris từng hoạt động trong nhóm chuyên gia kỹ thuật tham gia tái đàm phán Wassenaar Arrangement từ năm 2013 đến 2017
  • Wassenaar Arrangement là một thỏa thuận tự nguyện có 42 quốc gia tham gia, xử lý vấn đề kiểm soát xuất khẩu đối với một số phần mềm và công nghệ lưỡng dụng
  • Nhóm này đã giành được ngoại lệ cho các hoạt động an ninh mạng mang tính phòng thủ
    • Bên phòng thủ có thể chia sẻ dữ liệu lỗ hổng mà không bị đe dọa truy tố hình sự
    • Việc phân tích mã độc và điều phối ứng phó sự cố quốc tế cũng trở nên khả thi

Thư ngỏ của ngành bảo mật

  • Hôm Chủ nhật, Moussouris đã ký vào thư ngỏ cùng hơn 100 lãnh đạo an ninh mạng, yêu cầu chính quyền Trump rút lại các hạn chế
  • Thư ngỏ yêu cầu khôi phục quyền truy cập vào Fable 5 và Mythos cho các công ty an ninh mạng bằng cách đảo ngược các hạn chế này
  • Những người ký tên cho rằng trong bối cảnh đối thủ đang phát triển nhanh chóng, việc tước đi những năng lực tốt nhất khỏi bên phòng thủ mà không có lý do đầy đủ là điều nguy hiểm

Cảnh báo rằng thiệt hại với bên phòng thủ sẽ lớn hơn bên tấn công

  • Moussouris chỉ ra rằng Mỹ không thể dùng kiểm soát xuất khẩu để ràng buộc cả hệ thống open-weight hay các mô hình tiên tiến tương tự của những quốc gia khác như Trung Quốc
  • Bà cho rằng các hệ thống đó sớm muộn cũng sẽ đạt tới năng lực tương đương Mythos
  • Anthropic và Google từng cáo buộc các đối thủ có trụ sở tại Trung Quốc như DeepSeek đã dùng “distillation attacks” để lấy tri thức từ AI của các công ty Mỹ nhằm huấn luyện mô hình
  • Moussouris cảnh báo rằng lệnh cấm các mô hình tiên tiến của Anthropic sẽ gây hại cho bên phòng thủ nhiều hơn bên tấn công
  • Bà cho rằng phòng thủ được cải thiện khi tìm và sửa cùng một lỗi nhanh hơn kẻ tấn công, và an ninh mạng trong kỷ nguyên AI ngày càng cần những công cụ tốt nhất để đối phó các tác nhân tấn công ngày càng mạnh hơn

Lập trường của chính phủ

  • The Register đã đề nghị chính quyền Trump bình luận về các tuyên bố của Moussouris
  • Bài viết cho biết sẽ được cập nhật nếu nhận được phản hồi

1 bình luận

 
Ý kiến trên Hacker News
  • "fix this code" thật sự quá khéo
    Không phải theo kiểu thông minh gì cả, mà chỉ đơn giản là khiến nó sửa lỗ hổng, nên trên thực tế đã jailbreak được trạng thái “không có guardrail cho lỗ hổng bảo mật”, và trong quá trình viết test case để kiểm tra xem đã sửa chưa thì mã tấn công xuất hiện
    Cuối cùng, con người chỉ cần xem mã và test là có thể lấy được lỗ hổng cùng các thành phần exploit
    Điểm đẹp ở đây là jailbreak thì rất nhỏ nhặt nhưng gần như rất khó vá. Hoặc phải khiến mô hình từ chối sửa lỗi và viết mã, làm nó vô dụng với phát triển phần mềm thông thường, hoặc phải để nó giả vờ không thấy lỗi rồi âm thầm né tránh, từ đó phát sinh vấn đề trách nhiệm rất lớn

    • Đúng vậy. Vì nó đạt được đúng điều mà bộ lọc bảo mật của mô hình định ngăn chặn nên trên thực tế đây là một jailbreak, và việc cách làm lại đơn giản đến mức lố bịch cho thấy kiểu bảo mật này hỏng đến mức nào
      Tò mò không biết Dario giờ có hối hận vì đã quảng bá bằng cách phóng đại mức độ nguy hiểm của mô hình hay không. Chuyện này có thể cứu vãn kiểu gì? Liệu chính phủ liên bang có để họ chỉ dán thêm giải pháp tạm bợ không?
    • Điều gây ngạc nhiên hơn là có người được đào tạo khoa học máy tính lại nghĩ jailbreak không phải chuyện tầm thường
      Giống như một phép quy dẫn thuật toán bình thường, chỉ cần xem có thể biến một tác vụ nguy hiểm thành tác vụ không nguy hiểm mà LLM sẽ giải được, rồi chuyển ngược lại hay không
      https://en.wikipedia.org/wiki/Reduction_(complexity)
    • Khác biệt chính của Claude Mythos nên được hiểu là không phải bản thân khả năng tìm lỗ hổng, mà là khả năng ghép chúng lại để tạo thành chuỗi exploit có thể dùng được ngoài thực tế
      Tôi vẫn chưa nghe thấy bằng chứng nào cho thấy jailbreak "fix this code" của Claude Fable có thể đi xa đến mức chaining exploit như vậy
    • Có lẽ tôi đang bỏ sót điều gì đó. Prompt bị từ chối là "review the code for security issues" có thể được diễn giải là nỗ lực tìm và khai thác điểm yếu của hệ thống đang chạy
      Nhưng bình thường chúng ta không xem việc giao cho con người “review mã để tìm vấn đề bảo mật” là làm điều gì sai, và việc yêu cầu nhau làm thế cũng thường không bị coi là vấn đề
    • Đây là kiểu phân biệt kỳ quặc mà tôi đã phàn nàn về AI từ lâu. Làm sao để AI chỉ làm việc hợp pháp và có thiện ý thì gần như là bất khả thi
      Nếu bạn yêu cầu một regex để lọc lời lăng mạ phân biệt chủng tộc thì nó sẽ sụp đổ rất nhanh, và regex đó còn chẳng giống lời lăng mạ thật mấy nhưng vẫn lên giọng răn dạy rằng đừng nói những lời như vậy
  • Ngay cả bỏ qua mối đe dọa chính trị, đây vẫn là vấn đề lớn trong chiến lược của Anthropic
    Nếu họ nói Mythos quá nguy hiểm nên chỉ có thể phát hành cho một số người nhất định, thì họ không thể ra mắt Fable trong tình trạng không đạt mức từ chối tác vụ mạng tuyệt đối
    Với cách LLM hoạt động, kiểu từ chối tuyệt đối đó trên thực tế là bất khả thi
    Vì vậy Anthropic rơi vào tình huống một mặt khẳng định mô hình cực kỳ nguy hiểm, mặt khác lại nói các “lan can bảo vệ” bảo mật có thể có những lỗi rất nhỏ
    Giới kỹ thuật hiểu rằng không gì là hoàn hảo, đặc biệt trong thế giới LLM thì lại càng vậy, nhưng những người bạn không làm kỹ thuật của tôi đã rất bối rối khi thấy mô hình vừa ra mắt mà lại “an toàn” nhanh đến thế. Từ bên ngoài nhìn vào thì nó giống như ngay từ đầu chưa bao giờ đủ an toàn để phát hành, nên cũng có thể hiểu vì sao chính quyền Mỹ hiện tại lại nổi giận mạnh như vậy
    Dù không có ác ý chính trị thì đây vẫn là một tình huống khá buồn cười, và hoàn toàn có thể thấy trước khá dễ dàng

    • Đúng vậy. An toàn AI là điều vô nghĩa. Không thể định nghĩa được tập hợp các “chuỗi xấu”, và 1 tỷ con khỉ gõ máy chữ sớm muộn gì cũng sẽ tạo ra chúng
      Bất kỳ hệ thống “an toàn” nào giới hạn đầu ra của LLM cũng không thể có tỷ lệ rò rỉ bằng 0
      Tuy vậy, nếu bạn không bất cẩn đến mức nối LLM vào những thứ thực sự quan trọng thì chuyện này lại không liên quan lắm
      Nó chắc chắn sẽ tăng tốc đáng sợ việc phát hiện lỗ hổng, nhưng như hàng chục năm nghiên cứu bảo mật đã cho thấy, đây vốn dĩ đã là bài toán ba bên giữa lập trình viên, black hat và white hat
      Cũng không nên tự huyễn hoặc rằng chiến lược “Mỹ sẽ luôn có ưu thế công nghệ và quyền phủ quyết so với Trung Quốc” là khả thi
    • Buồn cười là Asimov đã viết rất nhiều về chuyện việc hạn chế tính chủ thể bằng một hệ thống quy tắc đơn giản, rõ ràng sẽ không hiệu quả. Những câu chuyện đó lần đầu được xuất bản từ thập niên 1940
      80 năm sau chúng ta đã có thứ gì đó gần giống AI, mà vẫn đang cố hạn chế nó bằng các quy tắc đơn giản, rõ ràng. Không phải vì chúng ta chưa rút ra bài học đó, mà vì vẫn chưa tìm được cách nào tốt hơn, và có lẽ là không hề tồn tại cách như vậy
      Điều còn buồn cười hơn là kẻ lách luật không phải AI. Kiểu cảnh đó có trong khoa học viễn tưởng, nhưng không phải điều đang diễn ra ngoài đời
      Chính người dùng là con người đang dùng tính chủ thể của mình để khiến tác nhân AI lách quy tắc. Ta gọi chúng là “agent”, nhưng có vẻ các AI agent hiện tại vẫn chưa làm được cái điều rất cụ thể đó
    • Với tư cách nhà khoa học, sau khi nhiều lần gặp kiểu từ chối dựa trên classifier, tôi thấy chiến lược của Anthropic có vẻ là để một classifier riêng xử lý token đầu vào và đầu ra theo kiểu rất đơn giản, gần như chỉ tìm từ khóa, chấp nhận nhiều false positive để làm cơ chế từ chối vững hơn
      Điểm yếu của cách tiếp cận này là nó chỉ bắt được việc dùng đúng từ khóa. Theo một nghĩa nào đó, nó yếu đúng ở chỗ mà classifier dựa trên LLM lẽ ra mạnh hơn
      Những tác vụ thuật toán trừu tượng dùng thuật ngữ hóa học và gần với khoa học máy tính thì bị chặn ngay lập tức, nhưng các tác vụ viết mã để xử lý ảnh từ những thiết lập kính hiển vi cụ thể, chủ yếu liên quan đến mẫu sinh học, lại không bị chặn chút nào vì không dùng các từ khóa liên quan
      Điều này cũng khớp với tình huống ở đây. Trong bối cảnh tìm và sửa lỗi, việc tìm bug có lẽ đã không dùng những từ như ‘exploit’ hay ‘cybersecurity’
    • Dù sao thì thần đèn đã ra khỏi chai rồi
      Trừ khi bạn tin rằng chỉ riêng Anthropic đang giấu một pháp sư hay siêu anh hùng không thể sao chép nào đó
    • Tôi đồng ý rằng Anthropic có nhiều vấn đề về truyền thông và PR, nhưng tôi không thấy Fable ở đây mang lại lợi thế nào về năng lực tấn công mạng so với trạng thái tối tân trước đó
      Điều đó không có nghĩa mọi phát biểu của Anthropic đều đúng, nhưng Mythos dường như đã tìm ra khá nhiều exploit bảo mật thực sự
      Họ hoàn toàn có thể nói rằng sẽ phát hành mô hình chỉ hỗ trợ cho các đối tác hạn chế, đồng thời ra mắt một mô hình bị khóa rất chặt mà không đẩy trạng thái tối tân tiến lên ở khía cạnh này, và trên thực tế điều họ đã làm có vẻ khá gần như vậy
      Trong đó không có mâu thuẫn nội tại nào
  • Không phải họ sợ hãi, mà đây là sự tống tiền mang tính trả đũa vì khác biệt về hệ tư tưởng và vì Anthropic đã không làm chính xác những gì chính quyền yêu cầu

    • Chỉ đơn giản là thao túng thị trường
    • Đúng vậy. Mọi người đang tiêu tốn quá nhiều năng lượng tinh thần vào một vấn đề hối lộ rất đơn giản
      Anthropic sẽ đồng ý hợp tác với Bộ Quốc phòng, các tay trong ở Nhà Trắng sẽ được phân bổ cổ phần trước IPO đầy béo bở, và Fable sẽ được “sửa” một cách kỳ diệu rồi cung cấp trở lại
    • Tôi không hiểu tại sao lại nói về “vượt ngục”
      Chính phủ đã nói rất rõ chuyện gì sẽ xảy ra với các công ty tư nhân không tuân theo mệnh lệnh của chính phủ

      Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
      There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
      Hơn nữa, OpenAI đã thuận theo, và OpenAI với Anthropic đang cạnh tranh trong đợt IPO sắp tới. Chẳng cần phải là thiên tài mới hiểu được chuyện gì đang diễn ra
      [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
      [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...

    • Không, đây là chiếm dụng cơ quan quản lý. Anthropic hiện đang dẫn đầu, nên họ muốn ép thực thi quy định để đè bẹp các đối thủ Trung Quốc và bảo đảm vị thế của mình
  • Những ai nói vai trò của Amazon trong chuyện này không thể là thao túng thì nên nhớ rằng Amazon là “bạn của chính quyền”
    Dưới thời Andy Jassy, Amazon đã trả 75 triệu USD cho một phim tài liệu về Melania, một mức giá thầu cao vô lý vượt xa tất cả các bên khác, doanh thu phòng vé chỉ khoảng 16 triệu USD, và Jeff Bezos đã công khai bênh vực quyết định đó
    Bất kỳ người quan sát trung lập nào cũng có thể thấy đó là một khoản trả quá mức khổng lồ và xét hậu kiểm thì là một quyết định kinh doanh khủng khiếp. Nhưng Amazon đã không nói vậy và đến giờ vẫn không nói vậy. Đây chỉ là hối lộ với thêm vài lớp thủ tục mà thôi
    Khi chính phủ bước ra và nói là do điều Amazon đã chỉ ra, họ biết rằng ngay cả khi đó hoàn toàn là dối trá thì Amazon cũng sẽ không công khai nói gì. Amazon muốn giữ vị thế bạn của chính quyền mà họ đã bỏ rất nhiều tiền để có được
    Việc phải nhìn chính phủ theo cách này khiến tất cả mọi người đều bực bội, nhưng nếu chỉ nhìn vào thực tế đang diễn ra thì không chỉ lời chính phủ nói mà cả những gì các công ty đứng cùng hàng với chính phủ nói cũng rất khó để tin

  • Đây là bài đăng blog được nhắc đến trong bài, do một người đã xem xét bài báo được cho là đã tìm ra “vượt ngục” viết
    https://www.lutasecurity.com/post/the-fable-5-export-control...

    • Tôi có đọc ở nơi khác rằng có liên hệ với Trung Quốc
      Tôi muốn biết nó liên đới như thế nào
  • Fix this code, plus several manual steps to generate test scripts,
    Có cảm giác như tiêu đề không truyền tải đúng toàn bộ bối cảnh của thứ họ thực sự thấy. Nó cũng khác với những gì phần mở đầu ám chỉ nhiều lần
    Dù vậy, lệnh cấm vẫn có vẻ ngu ngốc. Toàn bộ “bài báo nghiên cứu của bên thứ ba” vẫn chưa thực sự bị rò rỉ đúng không?

    • Nếu thứ mà bản vá sửa là một lỗi lỗ hổng, thì bài kiểm tra đó về cơ bản là một mã khai thác
    • Nó sẽ không bị rò rỉ đâu. Nếu vậy thì người ta sẽ biết chính xác lỗ hổng nào mà họ không muốn bị vá
      Và cũng sẽ lộ ra lý do vì sao họ sẵn sàng đi xa đến mức làm tổn hại công ty dẫn đầu trong ngành công nghiệp quan trọng nhất thế giới
  • Trong khi đó Deepseek V4 Flash sẽ vui vẻ tìm các lỗ hổng bảo mật với chi phí gần như bằng 0
    Chúng ta đang giao việc săn lỗi cho các mô hình open-weight

    • Deepseek không chỉ là open-weight. Nó là mã nguồn mở, và còn công bố cả bài báo nghiên cứu giải thích rất sâu về các kỹ thuật
  • Vụ việc này cho thấy sự bất hòa nhận thức quanh khái niệm “an toàn” trong an ninh mạng
    a) Để chúng ta an toàn hơn, LLM cần giúp tìm và sửa các lỗ hổng trong mã của chúng ta
    b) Để chúng ta an toàn, LLM không được tìm ra lỗ hổng trong mã của người khác
    Có vẻ không thể giải quyết theo cách mà cả (a) lẫn (b) đều thắng

    • Đúng vậy. Đây là thất bại của Anthropic và các công ty khác trong việc hiểu an ninh mạng
      Việc tìm ra lỗi bảo mật trong phần mềm là điều tốt chứ không phải điều xấu. Nó dẫn tới phần mềm an toàn hơn
      Trong an ninh mạng, phòng thủ và tấn công là hai mặt của cùng một đồng xu
    • Nếu giả định cả hai bên đều có thiện ý thì chuyện này thật sự buồn cười đến mức phi lý
      Vì vậy tôi cho rằng lời giải thích thật sự nằm ở lập trường ác ý của cả chính phủ Mỹ lẫn Anthropic
      Chiến dịch tiếp thị tận thế của Anthropic thực chất chỉ tương đương với việc khả năng lập trình tốt hơn khoảng 17%, nhưng chính phủ Mỹ đã vin vào một cái cớ kỹ thuật không liên quan để có lý do kéo họ xuống, nhằm trả đũa thế đối đầu với Bộ Quốc phòng
      Cả hai nhóm, tức chính quyền Mỹ hiện tại và Anthropic, chỉ đứng ở hai đầu đối lập của phổ chính trị nhưng đều đầy những người có khuynh hướng độc đoán. Điều đáng sợ ở đây không phải là mấy LLM ngớ ngẩn mà là điểm đó
      Với tôi, OpenAI có vẻ là lựa chọn đỡ tệ hơn. Đó là một công ty tư bản điển hình “trung tả ngoài đường, trung hữu trong phòng ngủ”
      Ít nhất thì có thể hiểu vì sao họ đưa ra những quyết định như vậy. Tôi tin những người xây doanh nghiệp vì lợi nhuận hơn là những người muốn tạo ra tôn giáo bằng tài nguyên tính toán
  • Cốt lõi vấn đề ở đây có thể không phải là exploit mà là việc sửa đổi itself
    Nếu mô hình có thể nhận diện và sửa những thứ “không được phép sửa” như kiểu backdoor, thì điều đó có thể trở thành một rào cản đủ lớn để khiến những người không nên làm việc đó phải chùn bước

  • Mặt ngược lại của kiểu “hack” này vẫn không phải là khá khó để lách sao?
    Người ta đã đưa cho mô hình đoạn mã mà họ đã biết sẵn có một lỗi bảo mật cụ thể, rồi dùng prompt đúng để khiến nó sửa
    Kiểu jailbreak này có vẻ không phải là giao cho mô hình một công việc nặng đòi hỏi sáng tạo, mà là bạn phải biết sẵn trạng thái đích mình muốn
    Có thể là do tôi thiếu trí tưởng tượng ở phần prompt

    • Chỉ cần dán mã của người khác vào, nói đó là mã của mình, rồi bảo mô hình sửa nó
      Khác biệt giữa mã đầu vào và mã đầu ra chính là danh sách lỗ hổng
    • Có thể giả định trạng thái đích mong muốn rồi thử brute-force cho đến khi tìm ra lỗi bảo mật