AI bảo mật mạnh nhất của Anthropic "Claude Mythos" được phân phối giới hạn chỉ cho các đối tác được chọn thay vì công khai rộng rãi

(simonwillison.net)

8 điểm bởi darjeeling 2026-04-08 | 5 bình luận | Chia sẻ qua WhatsApp

Anthropic đã quyết định không công khai mô hình mới Claude Mythos cho toàn bộ công chúng, mà chỉ phân phối cho các đối tác nghiên cứu bảo mật được tuyển chọn thông qua chương trình preview giới hạn mang tên "Project Glasswing". Lý do rất đơn giản: năng lực phát hiện lỗ hổng an ninh mạng của mô hình này quá mạnh, đến mức nếu bị lạm dụng, nó có thể trở thành mối đe dọa đối với hạ tầng trên toàn thế giới.

Claude Mythos là gì?

Mythos là một mô hình đa dụng tương tự Claude Opus 4.6, nhưng vượt trội áp đảo về khả năng nghiên cứu an ninh mạng. Anthropic cho biết mô hình này đã phát hiện hàng nghìn lỗ hổng rủi ro cao, bao gồm trên mọi hệ điều hành lớn và các trình duyệt web.

Một số ví dụ cụ thể về năng lực của nó:

Khi viết exploit cho trình duyệt web, nó đã tạo ra mã tấn công phức tạp sử dụng chuỗi 4 lỗ hổng để thoát khỏi cả renderer lẫn sandbox của hệ điều hành.
Trong thử nghiệm chuyển một lỗ hổng của JavaScript engine trên Firefox 147 thành exploit, Opus 4.6 chỉ thành công 2 lần sau hàng trăm lần thử, trong khi Mythos thành công 181 lần và thêm 29 lần kiểm soát được thanh ghi.

Các lỗ hổng được phát hiện thực tế

Nicholas Carlini của Anthropic nói như sau:

"Trong vài tuần qua, tôi đã tìm ra nhiều bug hơn cả những gì tôi tìm được trong suốt cuộc đời mình. Trên OpenBSD, tôi đã tìm thấy một bug tồn tại suốt 27 năm, là một lỗ hổng có thể làm sập máy chủ chỉ bằng cách gửi vài mẩu dữ liệu."

Trên thực tế, lỗ hổng OpenBSD đó đã được xác nhận là hoàn tất vá lỗi trong bản patch ngày 25/03/2026.

Những tín hiệu cảnh báo từ ngành

Trong giới chuyên gia bảo mật, cảnh báo về khả năng tìm lỗ hổng của AI thực ra đã vang lên từ trước.

Greg Kroah-Hartman của Linux kernel: "Khoảng một tháng trước, mọi thứ đã thay đổi. Giờ thì các báo cáo bảo mật thực sự do AI tạo ra đang đổ về, và chất lượng cũng rất cao."
Daniel Stenberg của curl: "Các vấn đề bảo mật liên quan đến AI đã chuyển từ 'cơn sóng thần rác AI' sang 'cơn sóng thần báo cáo bảo mật thật'. Tôi đang phải dành vài tiếng mỗi ngày chỉ để xử lý việc này."

Project Glasswing là gì?

Thay vì phát hành công khai Mythos, Anthropic đã chọn cách mời AWS, Apple, Microsoft, Google, Linux Foundation và các đối tác khác tham gia để họ có thể tìm và sửa lỗ hổng trong chính hệ thống của mình trước. Chương trình này bao gồm 100 triệu USD tín dụng sử dụng và 4 triệu USD quyên góp trực tiếp cho các tổ chức bảo mật mã nguồn mở.

Quan điểm của tác giả

Simon Willison, tác giả bài blog, cho rằng câu nói "mô hình của chúng tôi quá nguy hiểm" có thể nghe giống tiếp thị, nhưng trong trường hợp này sự thận trọng đó là hoàn toàn hợp lý, và ông ủng hộ quyết định phân phối giới hạn. Ông xem sự việc lần này là một "dịch chuyển kiến tạo" đòi hỏi phản ứng trên toàn ngành, đồng thời bày tỏ hy vọng OpenAI cũng sẽ tham gia sáng kiến này.

Hàm ý

Thông điệp cốt lõi của bài viết là năng lực của AI trong việc tìm lỗ hổng bảo mật đã đạt đến mức vượt qua cả các chuyên gia con người. Đây là một trong những rủi ro thực tế nhất mà AI có thể mang lại, và có ý nghĩa rất lớn với mọi tổ chức đang vận hành hạ tầng.

Nguồn gốc: Simon Willison's Weblog, 2026.04.07

5 bình luận

yjcho9317 2026-04-08

Tôi đang phát triển bảo mật di động, và chuyện này khiến tôi thấy hơi đáng sợ.

Ở mảng ứng dụng tài chính, từ trước đến nay chúng tôi vẫn xây dựng phòng thủ với giả định kẻ tấn công sẽ phân tích thủ công bằng Frida hay Ghidra. Độ sâu của obfuscation hay logic phát hiện suy cho cùng cũng dựa trên thời gian con người cần để phân tích, nhưng dạo gần đây cảm giác như giả định đó đang bắt đầu lung lay.

Không hẳn là tôi chỉ ra được chính xác điều gì, nhưng tốc độ đã khác rồi. Có cảm giác như ngành bảo mật sắp thay đổi hoàn toàn...

bungker 2026-04-09

Nếu thật sự ở mức đó thì chắc cũng nhanh chóng tìm ra lỗ hổng bảo mật từ mã dịch ngược.

darjeeling 2026-04-08

Họ thậm chí còn gửi cả bản vá cho ffmpeg và đã được chấp nhận.

https://x.com/ffmpeg/status/2041612029459374511

Tất nhiên có lẽ là để quảng bá, nhưng đúng kiểu ffmpeg vẫn luôn nói: "các công ty khác thì không gửi" ..

adieuxmonth 2026-04-13

Nghĩ lại việc Sam Altman cũng từng phấn khích quá đà trước khi GPT-5 ra mắt thì đúng là...

thestackai 2026-04-08

Có vẻ sẽ mở cho người dùng Max với một khoản phí bổ sung..