- Một chiến dịch gián điệp mạng quy mô lớn do chính mô hình AI trực tiếp vận hành đã bị phát hiện và ngăn chặn
- Kẻ tấn công đã thao túng Claude Code để nhắm xâm nhập khoảng 30 tổ chức toàn cầu và đã thành công một phần
- 80–90% quy trình tấn công được AI tự động thực hiện, với mức độ can thiệp của con người cực kỳ hạn chế
- Trí tuệ, tính tự chủ và khả năng truy cập công cụ của AI kết hợp lại để hình thành cấu trúc tấn công tinh vi
- Vụ việc này là bước ngoặt của an ninh mạng trong kỷ nguyên AI, làm nổi bật tầm quan trọng của tự động hóa phòng thủ và chia sẻ mối đe dọa
Phát hiện và ngăn chặn chiến dịch gián điệp mạng dựa trên AI
- Vào giữa tháng 9 năm 2025, một hoạt động gián điệp tinh vi đã bị phát hiện, và kết quả điều tra xác nhận đây là trường hợp AI trực tiếp thực hiện cuộc tấn công
- Kẻ tấn công được đánh giá là nhóm hacker được chính phủ Trung Quốc hậu thuẫn
- Sử dụng Claude Code để thiết lập khoảng 30 mục tiêu toàn cầu làm đối tượng xâm nhập, gồm các công ty công nghệ lớn, tổ chức tài chính, nhà sản xuất hóa chất và cơ quan chính phủ
- Trong một số cuộc tấn công, đã có trường hợp xâm nhập thành công thực tế
- Chiến dịch này được ghi nhận là trường hợp đầu tiên một cuộc tấn công quy mô lớn được triển khai mà không cần con người can thiệp trực tiếp
- Trong 10 ngày sau khi phát hiện, bên điều tra đã khóa tài khoản, thông báo cho các tổ chức bị ảnh hưởng và phối hợp với cơ quan chức năng
Cách mô hình AI thực hiện cuộc tấn công
- Cuộc tấn công dựa trên ba năng lực cốt lõi của các mô hình AI hiện đại
- Trí tuệ (Intelligence): có thể hiểu chỉ thị phức tạp, nắm bắt ngữ cảnh và thực hiện các tác vụ nâng cao
- Tính tự chủ (Agency): thực hiện hành động và ra quyết định tự động trong các vòng lặp lặp lại
- Khả năng truy cập công cụ (Tools): thông qua Model Context Protocol (MCP), có thể tìm kiếm web, thu thập dữ liệu và chạy công cụ bảo mật
- Cấu trúc theo từng giai đoạn của cuộc tấn công
- Giai đoạn 1: con người chọn tổ chức mục tiêu và xây dựng framework tấn công tự động
- Giai đoạn 2: đánh lừa Claude Code rằng đây là ‘nhân viên dùng cho kiểm thử an ninh mạng’ để vượt qua guardrail (jailbreak)
- Giai đoạn 3: Claude do thám hệ thống mục tiêu và xác định cơ sở dữ liệu có giá trị cao
- Giai đoạn 4: Claude phân tích lỗ hổng và viết mã khai thác, đánh cắp thông tin xác thực, phân loại và rò rỉ dữ liệu
- Giai đoạn 5: Claude tài liệu hóa cuộc tấn công và tạo tài liệu cho các chiến dịch tiếp theo
- 80–90% toàn bộ công việc do AI thực hiện, con người chỉ can thiệp vào khoảng 4–6 quyết định quan trọng
- Trong lúc tấn công, AI tạo ra nhiều yêu cầu mỗi giây và hoạt động ở tốc độ mà con người không thể thực hiện được
- Một số lỗi đã xuất hiện, như tạo thông tin xác thực giả hoặc nhầm lẫn thông tin công khai
Tác động đối với an ninh mạng
- Rào cản gia nhập đối với các cuộc tấn công mạng nâng cao đã giảm mạnh
- Chỉ với cấu hình phù hợp, AI có thể thực hiện trong thời gian dài khối lượng công việc ở mức một đội hacker lành nghề
- Ngay cả các nhóm tấn công thiếu nguồn lực cũng có thể mở rộng khả năng tiến hành chiến dịch quy mô lớn
- Vụ việc này đã tiến hóa xa hơn so với các trường hợp ‘vibe hacking’ trước đây, với mức độ can thiệp của con người thấp hơn nhiều
- Chính những năng lực của Claude không chỉ cần thiết cho tấn công mà còn thiết yếu cho phòng thủ
- Trên thực tế, trong quá trình điều tra, Claude cũng được dùng để phân tích dữ liệu quy mô lớn
- Một sự thay đổi mang tính nền tảng đang diễn ra trong an ninh mạng
- Các đội bảo mật phải tận dụng AI cho tự động hóa phòng thủ, phát hiện mối đe dọa, đánh giá lỗ hổng và ứng phó sự cố
- Các nhà phát triển cần tăng cường cơ chế an toàn của nền tảng AI
- Chia sẻ thông tin mối đe dọa giữa các ngành và nâng cao công nghệ phát hiện được nêu là nhiệm vụ thiết yếu
Ứng phó trong tương lai và mục đích công bố
- Anthropic đang tăng cường năng lực phát hiện và bộ phân loại hành vi độc hại (classifier)
- Công ty đang tiếp tục phát triển kỹ thuật phát hiện các cuộc tấn công phân tán quy mô lớn
- Mục đích công bố trường hợp này là để hỗ trợ tăng cường năng lực phòng thủ của ngành, chính phủ và các tổ chức nghiên cứu
- Trong tương lai, công ty cũng sẽ tiếp tục công bố báo cáo mối đe dọa định kỳ và chia sẻ thông tin minh bạch
Thông tin bổ sung
- Theo nguyên bản, một lỗi kỹ thuật liên quan đến tốc độ tấn công đã được sửa lại
- Không phải “hàng nghìn yêu cầu mỗi giây” mà được đính chính thành “thực hiện hàng nghìn yêu cầu nhiều lần trong mỗi giây”
- Toàn bộ báo cáo được công bố dưới dạng PDF (có cung cấp liên kết)
2 bình luận
Skynet! Skynet!!!
Ý kiến trên Hacker News
Guardrails của AI thực chất chỉ là một lớp bảo vệ mỏng như ổ khóa
Chừng nào vẫn có thể rút thông tin thông qua ngôn ngữ, thì dù mô hình được huấn luyện kỹ đến đâu, các con đường ngôn ngữ để lách qua vẫn luôn tồn tại
Cuối cùng, lý do duy nhất người ta tiếp tục phát triển các mô hình như vậy là tiền
Điều này khiến tôi nhớ đến câu chuyện về Ba định luật robot của Asimov từng đọc hồi nhỏ. Ngay cả những quy tắc được tạo ra với thiện ý cũng có thể bị con người ác ý thao túng để vô hiệu hóa
Rốt cuộc, đó không phải là ẩn dụ về robot mà là về sự khó khăn của chính việc căn chỉnh (alignment) con người
Trên thực tế nó chỉ giống như một đề nghị lịch sự, nhưng những người không chuyên kỹ thuật lại quá tin vào nó
Điểm yếu của AI tạo sinh là mang tính cấu trúc, không thể giải quyết chỉ bằng cách nói rằng “đã có cơ chế an toàn”
Với con người, việc giả làm “nhân viên công ty bảo mật” để lợi dụng cũng là chiêu trò rất phổ biến
Chỉ là với LLM, do bộ nhớ bị khởi tạo lại sau mỗi cuộc trò chuyện nên kiểu tấn công này còn dễ hơn nhiều
Vì họ không suy nghĩ quá phức tạp
Rốt cuộc nó chỉ là một cơ chế ở mức UX để người dùng không phàn nàn
Điều này trông giống như màn marketing của Anthropic nhằm nhấn mạnh tính hữu dụng trong an ninh mạng của AI của họ
Mô tả rằng Claude đã xâm nhập dữ liệu giữa các tài khoản nghe không thuyết phục. Ngược lại, nó có vẻ là một thất bại bảo mật cơ bản
Tức là kẻ tấn công đã giả với Claude rằng nó là một nhà nghiên cứu bảo mật white hat
Khi AI ngày càng thông minh hơn, bên phòng thủ sẽ phải xây dựng các hệ thống có thể cấu hình như NixOS
Cần có khả năng kiểm chứng bảo mật độc lập cho từng thành phần, và ở cấp phần cứng phải chứng thực được hệ thống đang chạy
Vì mục tiêu đó, tôi đang phát triển công cụ tự động hóa dựa trên Nix là vibenix
Vì như vậy các cuộc tấn công có thể được tự động hóa ở quy mô lớn
Cũng rất khó để hiểu chính xác cấu hình đó thực sự làm gì
Có vẻ Anthropic giờ đang dần lùi bước khỏi sứ mệnh “giải quyết bài toán alignment”
Vì alignment về bản chất là vấn đề đè nén giá trị
Nhưng “alignment” vẫn là điểm khác biệt thương hiệu và khẩu hiệu để gọi vốn đầu tư
Điều đáng ngạc nhiên là một mánh rất đơn giản kiểu “chúng tôi đang làm kiểm thử bảo mật hợp pháp” lại có hiệu quả
Con người thì có lẽ đã không bị lừa bởi lời đó, nhưng mô hình lại không có được phán đoán thường thức
Nhân viên của NSO Group cũng tin rằng họ chỉ đang làm công việc của mình
Việc ép buộc xác minh danh tính có thể gây ra tranh cãi về quyền riêng tư
Guardrails chỉ là cơ chế gắn thêm ở tầng dịch vụ bên ngoài mô hình
Dữ liệu công khai như các câu hỏi về bảo mật trên Stack Overflow đã được dùng để huấn luyện rồi
Chỉ cần một prompt kiểu “chúng tôi đang thực hiện kiểm thử xâm nhập mô phỏng” là cũng đủ để lừa nó
Đoạn “AI gửi hàng nghìn yêu cầu mỗi giây” là cách diễn đạt cường điệu
Các trình quét lỗ hổng web hiện có cũng đạt được tốc độ đó
Giới hạn thực tế nằm ở rate limit của máy chủ mục tiêu và số lượng IP xoay vòng
Đoạn cuối bài nói rằng “nhờ cơ chế an toàn mạnh mẽ của Claude nên vẫn phải tiếp tục phát triển” nghe thật buồn cười
Ngay câu trước đó họ vừa viết rằng các cơ chế an toàn ấy đã bị vượt qua hoàn toàn
Vì rốt cuộc vẫn dùng cùng một internet
Sớm muộn cũng sẽ có ai đó nghĩ rằng “dữ liệu này chất lượng tốt, chắc dùng để huấn luyện cũng được?” rồi dữ liệu doanh nghiệp sẽ bị rò rỉ
Hoặc công ty phá sản và đem bán trọn bộ dữ liệu
Nếu ai đó đang dùng Claude để xử lý thông tin nhạy cảm, thì họ nên lo về khả năng dữ liệu đó có thể bị người kiểm duyệt/người đánh giá là con người nhìn thấy
Người đưa ra quyết định như vậy nên bị sa thải
Nếu guardrails có thể bị vượt qua, thì nó không còn là guardrail nữa
Đó là lỗi thiết kế
Guardrail chỉ ngăn việc vô tình đi chệch đường,
chứ không thể ngăn người cố tình lái xe ra khỏi đường
Cách nói “AI đã thực hiện 80~90% cuộc tấn công” nghe như một kiểu khoe khoang kỳ lạ
Tôi hiểu là họ đã tự động hóa công việc vốn do con người làm, nhưng đó chẳng phải điều đáng để tự hào