Simon Willison đã đăng một bài viết phân tích 2 nghiên cứu mới nhất về prompt injection.
Các cuộc tấn công prompt injection vào AI hiện rất khó bị ngăn chặn hoàn toàn bằng các kỹ thuật phòng thủ hiện có. Meta thừa nhận điều này và đề xuất giảm thiểu rủi ro thông qua nguyên tắc thiết kế hệ thống mang tên "Agents Rule of Two".
Nội dung chính:
- Rủi ro và điểm yếu: Kẻ tấn công có thể chèn lệnh độc hại vào AI để làm lộ thông tin cá nhân hoặc dẫn đến phishing. Nghiên cứu nhấn mạnh kết quả cho thấy 12 hệ thống phòng thủ đều bị vượt qua với tỷ lệ hơn 90%.
- Nguyên tắc Rule of Two: Thiết kế để tác nhân AI chỉ đồng thời có 2 trong 3 thuộc tính sau (A, B, C).
- [A] Xử lý đầu vào không đáng tin cậy
- [B] Truy cập hệ thống nhạy cảm/thông tin cá nhân
- [C] Thay đổi trạng thái hoặc giao tiếp ra bên ngoài
- Ví dụ: bot email có thể có A (đầu vào) + C (giao tiếp), nhưng bị cấm B (thông tin cá nhân).
- Cách tiếp cận thực tế: Giảm rủi ro bằng thiết kế thay vì tìm kiếm phòng thủ hoàn hảo.
Kết luận: Vì prompt injection là điều không thể tránh khỏi, hãy tái thiết kế hệ thống AI bằng các nguyên tắc như Rule of Two. Đây được đánh giá là một giải pháp thay thế thực tiễn.
5 bình luận
Đọc bản dịch của bạn thì đúng là chắc chắn đã bị prompt injection rồi.
"Chuyên gia bảo mật AI Simon Willison" <= sai
Simon Willison là một lập trình viên web nổi tiếng, người tạo ra Django, đồng thời cũng là người phát triển các công cụ LLM, viết rất nhiều bài về AI và thuyết trình cũng rất nhiều về chủ đề này. Ông ấy cũng thể hiện sự quan tâm lớn đến bảo mật AI và đã đăng rất nhiều bài viết về lĩnh vực này. Vì vậy, trong ngữ cảnh bài viết lần này, tôi không nghĩ việc gọi ông ấy là "chuyên gia bảo mật AI" là điều gì quá sai. Tôi cho rằng ông ấy có đủ kiến thức và hiểu biết sâu sắc cả về bảo mật AI nên mới cố ý viết như vậy. (Vì thế đây không phải là injection đâu ^^)
Tóm lại, ý anh/chị là tiêu đề đó được đặt như vậy để thuận tiện cho việc diễn giải phải không? Trong trang about của blog cũng có mục AI thật, nhưng dù vậy thì tôi vẫn thấy khá khó chấp nhận rằng đó là thành tựu chủ yếu của người đó đến mức người khác có thể gắn cho ông ấy danh xưng chuyên gia bảo mật AI.
Trước mắt thì tôi đã hiểu ý chính rồi
Cảm ơn bạn về bài viết hay.
Cảm ơn vì bài viết hay.
Có vẻ như nó được thiết kế giống như lý thuyết CAP.