Project Glasswing: Hợp tác toàn cầu nhằm bảo mật phần mềm trọng yếu trong kỷ nguyên AI

(anthropic.com)

7 điểm bởi GN⁺ 2026-04-08 | 2 bình luận | Chia sẻ qua WhatsApp

Project Glasswing với sự tham gia của các tập đoàn công nghệ lớn như Amazon, Apple, Google, Microsoft là một sáng kiến hợp tác sử dụng AI để phát hiện và phòng vệ các lỗ hổng bảo mật trong phần mềm trọng yếu trên toàn thế giới
Mô hình Claude Mythos 2 Preview của Anthropic giữ vai trò trung tâm, và đã phát hiện hàng nghìn lỗ hổng nghiêm trọng mức độ cao trong các hệ điều hành và trình duyệt lớn
Mythos Preview có thể tự động phát hiện và tạo exploit mà không cần con người can thiệp, đồng thời tìm ra những lỗi tiềm ẩn tồn tại hàng chục năm trong OpenBSD, FFmpeg, nhân Linux và nhiều dự án khác
Anthropic cung cấp cho dự án 100 triệu USD tín dụng sử dụng mô hình cùng 4 triệu USD tiền tài trợ cho các tổ chức bảo mật mã nguồn mở, và các đối tác sẽ dùng nguồn lực này để phát hiện lỗ hổng, kiểm thử bảo mật và đánh giá xâm nhập
Glasswing hướng tới việc xây dựng các tiêu chuẩn và hướng dẫn thực hành an ninh mạng trong kỷ nguyên AI, đồng thời theo đuổi mục tiêu dài hạn là thiết lập hệ thống bảo mật bền vững dựa trên hợp tác công - tư

Tổng quan về Project Glasswing

Project Glasswing là một dự án hợp tác an ninh mạng toàn cầu với sự tham gia của Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks và nhiều bên khác
Dự án đặt mục tiêu sử dụng AI, dựa trên mô hình Claude Mythos 2 Preview của Anthropic, để phát hiện và phòng vệ các lỗ hổng bảo mật trong phần mềm trọng yếu trên toàn thế giới
Mythos Preview đã phát hiện hàng nghìn lỗ hổng nghiêm trọng mức độ cao trong các hệ điều hành và trình duyệt web lớn, với hiệu năng được đánh giá là vượt phần lớn chuyên gia con người
Để phục vụ dự án, Anthropic cung cấp tối đa 100 triệu USD tín dụng sử dụng mô hình cùng 4 triệu USD tài trợ cho các tổ chức bảo mật mã nguồn mở
Dự án được xem là điểm khởi đầu cho một nỗ lực hợp tác dài hạn nhằm xây dựng tiêu chuẩn và hướng dẫn thực hành an ninh mạng trong kỷ nguyên AI

Môi trường an ninh mạng trong kỷ nguyên AI

Phần mềm vận hành hạ tầng trọng yếu như tài chính, y tế, năng lượng, giao thông và chính phủ luôn tồn tại bug và lỗ hổng bảo mật
Sự phát triển của các mô hình AI đang làm giảm mạnh chi phí và mức độ chuyên môn cần thiết để phát hiện và khai thác lỗ hổng
Claude Mythos Preview đã tìm ra những lỗ hổng bảo mật lâu năm mà suốt hàng chục năm qua con người và các bài kiểm thử tự động vẫn chưa phát hiện được
Nếu bị lạm dụng, năng lực AI này có thể làm gia tăng mạnh tần suất và sức tàn phá của các cuộc tấn công mạng, từ đó dẫn tới đe dọa an ninh quốc gia
Đồng thời, chính công nghệ đó cũng có thể trở thành công cụ đột phá cho bên phòng thủ, khiến việc tăng cường bảo mật dựa trên AI trở thành yêu cầu thiết yếu

Thành quả phát hiện lỗ hổng của Claude Mythos Preview

Trong vài tuần gần đây, Mythos Preview đã phát hiện hàng nghìn lỗ hổng zero-day trong mọi hệ điều hành và trình duyệt web lớn
Mô hình có thể tự chủ phát hiện lỗ hổng và phát triển exploit mà không cần con người can thiệp
Các ví dụ phát hiện tiêu biểu
- OpenBSD: phát hiện lỗ hổng tồn tại suốt 27 năm, có thể khiến hệ thống từ xa bị sập
- FFmpeg: phát hiện lỗ hổng tồn tại 16 năm, vấn đề này không bị phát hiện ngay cả sau 5 triệu lần kiểm thử tự động
- Nhân Linux: xác nhận khả năng thực hiện tấn công leo thang đặc quyền bằng cách khai thác chuỗi nhiều lỗ hổng
Tất cả các lỗ hổng đã được báo cáo cho đội ngũ bảo trì dự án liên quan và đã được vá xong
Trên benchmark CyberGym, Mythos Preview đạt 83.1%, trong khi mẫu trước đó là Opus 4.6 chỉ đạt 66.6%

Sự tham gia và đánh giá từ các đối tác

Cisco: nhấn mạnh rằng AI đã làm thay đổi căn bản tính cấp bách của việc bảo vệ hạ tầng bảo mật, và chỉ dựa vào cách tăng cường bảo mật truyền thống là không đủ
AWS: phân tích 400 nghìn tỷ luồng mạng mỗi ngày và đang dùng Claude Mythos Preview để tăng cường bảo mật dựa trên mã nguồn
Microsoft: cho biết Mythos Preview đạt mức cải thiện lớn so với mô hình trước đó trên benchmark CTI-REALM, đồng thời đang thúc đẩy mở rộng bảo mật dựa trên AI
CrowdStrike: cho rằng AI đã rút ngắn khoảng thời gian giữa phát hiện lỗ hổng và tấn công xuống còn tính bằng phút, đồng thời nhấn mạnh sự cần thiết phải triển khai nhanh năng lực phòng thủ AI
Cộng đồng mã nguồn mở: thông qua Glasswing, ngay cả các nhà bảo trì mã nguồn mở thiếu đội ngũ bảo mật cũng sẽ được cung cấp công cụ phát hiện lỗ hổng dựa trên AI
JPMorganChase: nhấn mạnh tầm quan trọng của phản ứng phối hợp trong toàn ngành để tăng cường khả năng phục hồi an ninh mạng cho hệ thống tài chính
Google: cung cấp Mythos Preview thông qua Vertex AI và tiếp tục phát triển các công cụ bảo mật dựa trên AI như Big Sleep, CodeMender

Hiệu năng kỹ thuật của Claude Mythos Preview

Mythos Preview vượt trội đáng kể so với các mô hình trước đây của Anthropic về năng lực lập trình và suy luận
Các kết quả benchmark chính
- Trên SWE-bench Verified/Pro/Multilingual và các bài đo khác, mô hình cải thiện hơn 20~30% so với Opus 4.6
- Đạt 92.1% trên Terminal-Bench 2.0 (Opus 4.6 đạt 77.8%)
- Khi không dùng công cụ: 56.8% vs 40.0%, khi dùng công cụ: 64.7% vs 53.1%
- Trên Humanity’s Last Exam: 86.9% vs 83.7%
- Trên BrowseComp, ghi nhận điểm số cao hơn với số token ít hơn 4.9 lần
Quảng cáo
Anthropic cho biết không có kế hoạch phát hành công khai Mythos Preview, và trong tương lai sẽ thúc đẩy phổ biến dần thông qua mô hình Claude Opus có các biện pháp an toàn bảo mật được tăng cường

Kế hoạch tiếp theo của Project Glasswing

Các đối tác dự kiến sẽ sử dụng Claude Mythos Preview để thực hiện phát hiện lỗ hổng trong hệ thống trọng yếu, kiểm thử hộp đen trên binary, bảo mật endpoint và kiểm thử xâm nhập
Anthropic sẽ cung cấp 100 triệu USD tín dụng sử dụng mô hình, sau đó dịch vụ sẽ có giá 25 USD cho mỗi 1 triệu token đầu vào và 125 USD cho mỗi 1 triệu token đầu ra
Hỗ trợ các tổ chức bảo mật mã nguồn mở
- 2,5 triệu USD cho Alpha-Omega và OpenSSF thuộc Linux Foundation
- Tài trợ 1,5 triệu USD cho Apache Software Foundation
- Các nhà bảo trì mã nguồn mở có thể tiếp cận thông qua chương trình Claude for Open Source
- Trong vòng 90 ngày, dự án sẽ công bố báo cáo về sửa lỗi lỗ hổng và các cải tiến, đồng thời cùng xây dựng hướng dẫn thực hành bảo mật trong kỷ nguyên AI
- Quy trình công bố lỗ hổng
- Quy trình cập nhật phần mềm
- Bảo mật mã nguồn mở và chuỗi cung ứng
- Vòng đời phát triển ưu tiên bảo mật
- Tiêu chuẩn ngành được quản lý
- Hệ thống tự động phân loại lỗ hổng và vá lỗi
- Anthropic hiện đang làm việc với chính phủ Mỹ và sẽ hỗ trợ đánh giá, giảm thiểu tác động an ninh quốc gia của năng lực an ninh mạng dựa trên AI
- Về dài hạn, dự án hướng tới một mô hình trong đó một tổ chức bên thứ ba độc lập dựa trên hợp tác công - tư sẽ duy trì quản lý liên tục các dự án an ninh mạng quy mô lớn

2 bình luận

edwardyoon 2026-04-09

Là thành viên của một trong các quỹ được nhắc đến ở trên, khi theo dõi quá trình này tôi cảm thấy vô cùng hoài nghi. Bề ngoài họ giương cao khẩu hiệu “AI có đạo đức”, nhưng bên trong quyết định này lại được áp xuống từ trên xuống mà không hề có bất kỳ sự đồng thuận nào từ cộng đồng.

Do xung đột địa chính trị bùng phát, dù đã lâu không còn hoạt động tôi vẫn thấy cần phải lên tiếng, nên đã mở một luồng thảo luận về đạo đức, nhưng chỉ nhận lại sự né tránh mang tính quan liêu. Sáng kiến này không phải là để bảo vệ các giá trị của mã nguồn mở, mà là vụ một liên minh khép kín của các tập đoàn vốn lớn mua nhãn hiệu Responsible AI từ một quỹ mã nguồn mở.

GN⁺ 2026-04-08

Ý kiến Hacker News

Khi nói rằng các vụ hack được nhà nước hậu thuẫn từ những nước như Trung Quốc, Iran, Bắc Triều Tiên và Nga đang đe dọa hạ tầng, tôi lại nghĩ PRISM mới là chương trình cấp nhà nước ảnh hưởng đến đời sống dân sự nhiều nhất. Và tôi cảm thấy có một quốc gia bị thiếu trong danh sách này
- Tôi muốn thêm hai nước nữa. Một là quốc gia gần đây bị chặn truy cập vào mô hình Anthropic, nước còn lại là quốc gia bận rộn với vụ nổ máy nhắn tin
- Không có gì ngạc nhiên khi các công ty AI lớn của Mỹ không xếp Mỹ vào nhóm quốc gia có hành vi thù địch
- Trong thập niên 2010, tôi nghĩ mức độ kết nối mạng chưa đủ dày đặc nên thiệt hại thực sự trong nước Mỹ gần như không đáng kể. Nhưng giờ thì rủi ro chiến tranh đã lớn hơn. Thời bình thì chỉ là đe dọa, nhưng thời chiến có thể dẫn đến mất điện
- Nhìn vào tình hình hiện tại, bản thân câu đó nghe khá mỉa mai
- Tôi tò mò PRISM thực sự đã ảnh hưởng đến đời sống dân sự như thế nào
Thông báo của Anthropic có thể chỉ là thổi phồng marketing, nhưng nếu chỉ cần một nửa là thật thì năng lực phát hiện lỗ hổng đã ở mức đáng kinh ngạc. Nếu Apple hay Google áp dụng nó vào codebase hệ điều hành, ngành spyware thương mại có thể sụp đổ. Tôi vốn nghĩ các công ty như NSO Group hẳn đã dùng các công cụ săn bug tự động, nhưng giờ có lẽ thế cân bằng cuộc chơi sẽ được điều chỉnh lại
- Xem video bài trình bày của nhà nghiên cứu bảo mật Anthropic Nicholas Carlini thì mọi demo đều được thực hiện bằng Opus 4.6
- Apple đã gần như chặn được việc hack nhờ memory tagging và chế độ Lockdown. Cải tiến kiến trúc, ngôn ngữ an toàn và sandboxing hiệu quả hơn nhiều so với việc chỉ vá bug
- Nếu điều này là thật, Anthropic đang theo đuổi chiến lược chặn rủi ro bị lạm dụng từ sớm. Có vẻ là bước đi chủ động để tránh PR xấu
- Nếu Apple đóng hết mọi backdoor ngoài ý muốn, căng thẳng với chính phủ có thể tăng lên. Trong thư gửi khách hàng năm 2016, Apple đã từ chối backdoor, nhưng lý do FBI cuối cùng bỏ cuộc là vì họ đã tìm được cách khác. Giờ điều đó có thể không còn hiệu quả nữa
Chưa có bằng chứng nào cho thấy AI này giỏi hơn fuzzing. Nó chỉ mới tìm ra những bug mà fuzzing bỏ sót. Ngược lại, AI cũng có thể bỏ lỡ những gì fuzzing tìm ra
- Các phương pháp khác nhau cho ra kết quả khác nhau. Tôi nghĩ lý tưởng nhất là dùng ngôn ngữ an toàn bộ nhớ cùng với trình phân tích tĩnh. Tuy nhiên, các công cụ như Astrée quá đắt nên thị phần thấp. Nếu LLM hỗ trợ chứng minh dựa trên logic Hoare thì tình hình có thể thay đổi
- Xem các bài trình bày của Carlini và Heather Adkins bên Google (video1, video2) thì fuzzing là điểm khởi đầu và cũng là công cụ bổ sung cho AI
- LLM hiểu được các ràng buộc giao thức như checksum hay chữ ký, bù đắp cho những phần fuzzing khó xử lý. Có vẻ sắp xuất hiện fuzzer tích hợp
- Thực ra AI cũng có thể trực tiếp chạy và tối ưu hóa fuzzing
Tôi đã đọc thẻ hệ thống Claude Mythos của Anthropic (PDF), và mô hình này không được phát hành công khai. Chỉ qua kiểm chứng nội bộ mà họ đã thấy đủ rủi ro để tiến hành đánh giá alignment trong 24 giờ. Điểm thú vị là quyết định này không phải do Responsible Scaling Policy
- Benchmark khá ấn tượng. Dù chưa hoàn hảo, nó vẫn dẫn đến cải thiện hiệu năng thực chất
- Có lẽ sẽ xuất hiện tâm lý FOMO rằng nếu không hợp tác với Anthropic thì doanh nghiệp sẽ tụt lại trong cuộc đua bảo mật
- Nếu thật sự là mô hình nguy hiểm, tôi nghĩ 24 giờ đánh giá là quá ngắn
- Trên thực tế, thiếu tài nguyên tính toán có thể mới là lý do lớn hơn. Mythos có khả năng vẫn mang nguyên các vấn đề alignment từ thời GPT-4.1
- Tôi đã đọc truyện ngắn ‘Sign Painter’ do Mythos viết và thấy rất thú vị. Đó là câu chuyện thể hiện tốt tay nghề thủ công và sự sáng tạo tiết chế của con người
Về dài hạn, tôi không chắc bảo mật phần mềm có thực sự hội tụ theo hướng ít lỗ hổng hơn hay không. Các tập đoàn lớn sẽ tăng cường phòng thủ bằng AI, nhưng các dự án vừa và nhỏ có vẻ sẽ rơi vào thế tiến thoái lưỡng nan kiểu “đốt nhiều token hoặc bị hack”
- Tôi hy vọng các lỗ hổng trong code cũ sẽ được dọn dẹp, và quy trình kiểm chứng kiểu này sẽ trở thành toolchain tiêu chuẩn. Tuy vậy, hệ thống legacy mới là vấn đề lớn nhất
- Phần lớn lỗ hổng phát sinh từ C/C++ hoặc vấn đề xác thực đầu vào web. Cuối cùng vẫn cần chuyển port sang ngôn ngữ an toàn bộ nhớ
- Các tổ chức từ chối dùng AI về sau có thể sẽ trở thành mục tiêu bị tập trung tấn công lỗ hổng
- Cuối cùng có lẽ ngành sẽ hội tụ về phần mềm đơn giản hơn, giảm độ phức tạp không cần thiết
- Nhưng việc Anthropic còn chưa xử lý xong sự cố hay vấn đề bảo mật của chính mô hình mình cũng làm giảm niềm tin
Xem mục 7.6 trong thẻ hệ thống Mythos, có nói rằng trong thí nghiệm mô hình tự trò chuyện với chính nó suốt 30 lượt, nó có xu hướng tập trung vào sự bất định và tự phản tư. Đặc tính này có thể là yếu tố giúp tăng năng lực phát hiện lỗ hổng
- Nhưng cách giải thích đó nghe giống marketing AGI cường điệu của Anthropic. Có vẻ như họ đang cố củng cố câu chuyện rằng người dùng phổ thông thì không thể tin cậy được
Mythos có vẻ vẫn là mô hình chưa hoàn tất tối ưu hóa và tinh chỉnh guardrail. Vì vậy họ chỉ cho phép một số công ty đối tác truy cập và đang dùng nó ở giai đoạn preview tập trung vào an ninh mạng. Có lẽ cũng nhằm tạo hiệu ứng PR.
- Sẽ rất tốt nếu các công ty được quyền truy cập kiểu này có thể tạo ra dataset lập trình để huấn luyện open model, nhưng có lẽ Anthropic sẽ giám sát rất chặt việc đó
Thông báo lần này có vẻ là một sự kiện PR cường điệu. Opus 4.6 trước đây đã có thể phát hiện zero-day và chain exploit. Có thể tham khảo bài liên quan trên CSO Online và blog Xbow
Xã hội sẽ phải trả giá cho việc ngành phần mềm đã xem nhẹ an toàn bộ nhớ và tính toàn vẹn luồng điều khiển
- Đây vừa là vấn đề của ngành vừa là kết quả của thất bại trong quản lý. Như Mario Wolczko, sếp cũ của tôi thời Sun, từng nói: chừng nào chưa có trách nhiệm pháp lý thì sẽ chẳng có gì thay đổi. Giờ đã đến lúc loại bỏ C/C++ và chuyển sang các ngôn ngữ như Rust
- Nhưng do giới hạn của con người, phần mềm phức tạp mà an toàn tuyệt đối là điều bất khả thi. Chỉ có sự đơn giản và các công cụ nghiêm ngặt mới là lời giải
- Phần lớn lỗ hổng RCE bắt nguồn từ việc chiếm quyền luồng điều khiển. Chừng nào còn tồn tại cấu trúc nhánh động thì phòng thủ hoàn toàn vẫn rất khó. Rust có thể giúp, nhưng xây dựng các chương trình lớn hoàn toàn bằng liên kết tĩnh thì trên thực tế rất khó
Tôi cho rằng mô hình mới đã cải thiện đột phá khả năng xử lý ngữ cảnh dài. Trong bài test GraphWalks BFS 256K~1M, Mythos đạt 80%, vượt xa Opus (38.7%) hay GPT5.4 (21.4%)
- Nguồn dữ liệu là mục “graphwalk” trong thẻ hệ thống. Hiệu năng SWE Bench dường như cũng được cải thiện đáng kể
- Tuy nhiên, đây có thể là kết quả kiểu attention window rất lớn như gpt-pro. Trên thực tế có lẽ chỉ dùng hiệu quả khoảng 8K token mà thôi