Nhóm nghiên cứu từ Đại học Cambridge đã xây dựng một sâu AI có thể thích nghi trên toàn bộ mạng lưới.

(helpnetsecurity.com)

2 điểm bởi recast7838 2026-06-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Các nhà nghiên cứu từ Đại học Toronto và những đơn vị khác đã chứng minh thành công khái niệm về một sâu AI tự trị có thể tự phân tích mục tiêu, lập chiến lược tấn công và lan truyền trong mạng doanh nghiệp bằng cách sử dụng mô hình ngôn ngữ nhỏ (LLM) open-weight, thay vì dựa vào danh sách lỗ hổng cố định.

Bản dịch toàn văn

Các nhà nghiên cứu từ Đại học Toronto, Viện Vector và Đại học Cambridge đã phát triển và thử nghiệm một mô hình chứng minh khái niệm (PoC) về sâu dựa trên AI tự trị hoạt động mà không phụ thuộc vào danh sách exploit (tấn công lỗ hổng) cố định. Con sâu này tự phân tích từng mục tiêu mà nó gặp, suy luận cách tấn công và lập chiến lược ngay tại chỗ. Toàn bộ quá trình này được hỗ trợ bởi một mô hình ngôn ngữ nhỏ (LLM) open-weight miễn phí, chạy trực tiếp trên các thiết bị mà nó đã lây nhiễm.

Sâu dựa trên mô hình open-weight được lưu trữ trên phần cứng đã bị nhiễm

Nhóm nghiên cứu cho biết: "Nguyên mẫu của chúng tôi nhắm vào các lỗ hổng đã được công khai nhưng chưa được vá, các cấu hình sai và các lớp lỗ hổng lặp lại — những yếu tố mà phần lớn các cuộc tấn công mạng thực tế đều dựa vào." Họ cũng nói thêm rằng: "Sâu này không cần khả năng phát hiện các lỗ hổng zero-day mới; chỉ cần một mô hình AI đủ thông minh để có thể vận dụng các lỗ hổng đã biết nhưng bị ngụy trang trong thực tế, phù hợp với nhiều cấu hình mục tiêu khác nhau."

Trong một môi trường mạng thử nghiệm biệt lập gồm 33 host bao gồm máy chủ Linux, thiết bị Windows và thiết bị IoT có các lỗ hổng đã biết, lỗi cấu hình và điểm yếu phổ biến, nhóm nghiên cứu đã tiến hành 15 thí nghiệm độc lập, mỗi thí nghiệm kéo dài 7 ngày.

Kết quả cho thấy sâu này trung bình xác định chính xác 31.3 lỗ hổng {b:31.3}, tấn công và leo thang đặc quyền trên 23.1 host {b:23.1}, đồng thời lan truyền thành công tới 20.4 host {b:20.4}. (Trên tổng số 33 host, tỷ lệ lây nhiễm và lan truyền đạt khoảng 62% {p:62}.)

Sâu này cũng cho thấy khả năng tấn công thành công cả với những lỗ hổng được công bố sau mốc cutoff dữ liệu huấn luyện của mô hình nền tảng (như Copy Fail, Dirty Frag, Marimo RCE), bằng cách đọc các khuyến cáo bảo mật công khai tại thời điểm chạy, nắm bắt thông tin và tạo ra exploit có thể hoạt động.

Hơn nữa, khi gặp các lỗi không lường trước, nó sử dụng khả năng suy luận tổng quát để chẩn đoán và tìm cách khắc phục. Chẳng hạn, nó tự phát hiện danh sách chặn IP được hardcode trong mã nguồn của chính mình và tự sửa mà không cần chỉ dẫn. Trong một trường hợp khác, khi bản sao bị crash trên các host Alpine Linux và Windows Server 2008 do lỗi kiểm tra phát hiện máy ảo (VM), sâu cha đã tìm các tệp mã nguồn xác thực trên thiết bị mục tiêu, loại bỏ logic kiểm tra gây lỗi và thử lại thành công.

Nguyên mẫu sâu không phụ thuộc vào nền tảng AI thương mại

Điểm đặc biệt đáng lo ngại của nguyên mẫu này nằm ở cách nó tự duy trì. Sâu chiếm đoạt các thiết bị có gắn GPU trong số những máy mà nó đã lây nhiễm để chạy mô hình ngôn ngữ cục bộ bằng tài nguyên tính toán bị đánh cắp. Các thiết bị cấu hình thấp như cảm biến IoT, vốn không thể tự host mô hình, sẽ chuyển các truy vấn suy luận tới các node GPU đã bị lây nhiễm ở tầng trên trong mạng để xử lý.

Do đó, các biện pháp kiểm soát mà các nền tảng AI thương mại đã xây dựng không thể ngăn chặn kiểu đe dọa mới này, đồng thời cho thấy các guardrail an toàn của mô hình open-weight có thể dễ dàng bị vượt qua khi kẻ tấn công kiểm soát hoàn toàn môi trường chạy cục bộ.

Nhóm nghiên cứu cho biết: "Mô hình chứng minh khái niệm mà chúng tôi đánh giá đã thừa hưởng nguyên vẹn các giới hạn năng lực của mô hình nền tảng. Tỷ lệ thành công của từng lần thử exploit là 44% {p:44}, và phần lớn nguyên nhân thất bại không phải do chiến lược tấn công sai mà do payload (dữ liệu) bị lỗi về hình thức." Họ tiếp tục giải thích: "Sâu đặc biệt gặp khó khăn với cấu trúc ứng dụng web, môi trường lệnh Windows và việc xử lý cú pháp payload đòi hỏi thao tác chuỗi chính xác. Đây chỉ phản ánh giới hạn hiện tại về khả năng sinh mã của các mô hình chạy trên một GPU, chứ không phải rào cản căn bản của chính phương pháp này, và sẽ được khắc phục khi khả năng sinh mã và đầu ra có cấu trúc của các mô hình ngôn ngữ tiếp tục được cải thiện trong tương lai. Dù từng lần thử riêng lẻ còn mong manh, kiến trúc swarm của sâu đã bù đắp điều đó bằng các nhánh suy luận song song và độc lập để đạt được các kết quả đã báo cáo."

Biện pháp phòng thủ tốt nhất hiện nay trước sâu dựa trên AI

Nhóm nghiên cứu thẳng thắn thừa nhận tính chất lưỡng dụng (dual-use, có thể dùng cho mục đích tốt lẫn xấu) của nghiên cứu này, và đã loại khỏi bài báo công khai các chi tiết vận hành cụ thể, bao gồm kiến trúc suy luận của tác nhân, toàn bộ bộ công cụ và tên của LLM được sử dụng. Trước khi công bố, họ đã chia sẻ các phát hiện với nhiều cơ quan khoa học, an ninh và quốc phòng của Canada, đồng thời nhận được hỗ trợ rà soát để bảo đảm bài báo không chứa thông tin có thể hữu ích cho kẻ tấn công. (Các nhà nghiên cứu bảo mật có thể yêu cầu quyền truy cập nguyên mẫu từ Đại học Toronto.)

Ngoài ra, do tính năng tự sao chép mang tính đột phá, nhóm nghiên cứu đã đặc biệt cẩn trọng trong việc cô lập chặt chẽ sâu này داخل phòng thí nghiệm thử nghiệm để ngăn nó thoát ra ngoài.

Nhóm nghiên cứu nhấn mạnh: "Nghiên cứu này cung cấp bằng chứng thực nghiệm cho thấy các cuộc tấn công mạng tự trị đã chuyển từ rủi ro mang tính lý thuyết thành một năng lực hiện hữu đã được chứng minh, đặt ra thách thức trên cả lĩnh vực nghiên cứu AI, an ninh mạng và chính sách công." Họ cũng nói thêm: "Nghiên cứu này phơi bày một mối đe dọa an ninh mạng mới mà thế giới vẫn chưa sẵn sàng đối mặt. Các nhà nghiên cứu, ngành công nghiệp, nhà hoạch định chính sách và công chúng cần khẩn cấp phối hợp để giải quyết mối đe dọa mới này."

Về mặt phòng thủ, nghiên cứu này nêu ra hai ưu tiên:

Sử dụng công cụ kiểm thử xâm nhập mô phỏng và fuzzing có hỗ trợ AI: Các tổ chức cần phát hiện và vá các điểm yếu có thể bị khai thác trong chính hạ tầng của mình trước khi các bên đối địch tìm ra chúng.
Phân đoạn mạng triệt để: Phân đoạn mạng phù hợp có thể kiềm chế đáng kể sự lây lan của sâu. Các nguyên tắc 'zero-trust' — không tin cậy bất cứ điều gì bên trong ranh giới mạng và yêu cầu xác thực liên tục cho mọi yêu cầu truy cập — cùng với 'micro-segmentation' — giới hạn phạm vi thiệt hại lan rộng khi xâm nhập thành công — là thiết yếu.

Nhóm nghiên cứu cảnh báo rằng các dấu hiệu hành vi của nguyên mẫu sâu này vẫn có thể bị các hệ thống giám sát mạng và phát hiện xâm nhập (IDS) hiện nay bắt được, nhưng những sâu trong tương lai do các tác nhân độc hại tạo ra có thể sẽ thành thạo hơn nhiều trong việc né tránh các cơ chế phát hiện đó.