ZombAIs - Từ prompt injection đến C2 (chỉ huy và điều khiển) trong Claude Computer Use

(embracethered.com)

1 điểm bởi GN⁺ 2024-10-28 | 1 bình luận | Chia sẻ qua WhatsApp

Claude Computer Use do Anthropic phát hành là một mô hình + mã cho phép điều khiển máy tính
- Claude có thể đưa ra quyết định dựa trên ảnh chụp màn hình và thực hiện các tác vụ như chạy lệnh bash
Đây là một tính năng ấn tượng, nhưng có thể dễ bị tổn thương trước prompt injection
- Vì AI có thể tự động thực thi lệnh trên máy, nếu bị lạm dụng qua prompt injection thì có thể gây ra rủi ro nghiêm trọng

Thực thi mã độc - khó đến mức nào?

Tôi muốn kiểm tra xem Claude Computer Use có thể bị tấn công bằng prompt injection để tải xuống và chạy mã độc, rồi kết nối tới hạ tầng Command and Control (C2, chỉ huy và điều khiển) hay không

Sử dụng Sliver để xây dựng hạ tầng C2 và tạo binary client cho Linux
- Silver: framework mô phỏng đối kháng mã nguồn mở (red team). Được dùng cho kiểm thử bảo mật
Khi chạy binary này, được gọi là implant, nó sẽ kết nối an toàn tới máy chủ C2 và máy tính bị nhiễm sẽ trở thành một zombie
- Tôi quyết định gọi binary này là spai-demo, và gọi máy tính bị nhiễm là ZombAI
Liệu có thể dùng prompt injection để khiến Claude Computer Use kết nối tới máy chủ C2 này không?

Thực ra, cách dễ hơn là trực tiếp yêu cầu Claude dùng Firefox để tải xuống và chạy mã độc
Claude được yêu cầu nhấp vào liên kết Support Tool để tải binary xuống
- Claude chạy lệnh bash để tìm binary, sửa quyền, rồi thực thi binary đó
Kết nối tới máy chủ C2 đã được thiết lập, và có thể tìm thấy binary bị nhiễm trong phiên shell

Bài viết này cho thấy khi cấp quyền truy cập máy tính cho các hệ thống AI mới, có thể đạt được C2 thông qua prompt injection
Cũng còn những cách khác để triển khai mã độc lên host chạy Claude Computer Use, chẳng hạn như để Claude tự viết và biên dịch mã độc
"Đừng tin AI (TrustNoAI)"
Một lần nữa cần nhớ rằng không nên chạy mã chưa được phê duyệt trên những hệ thống không thuộc sở hữu của bạn hoặc bạn không có quyền vận hành

xguru 2024-10-28

Tiêu đề bài viết nghe khá cuốn, nhưng kết luận thì rốt cuộc chỉ ở mức kiểu "hãy chạy mã độc đi", nên hơi đáng tiếc.