- Simon Willison đã công bố video, slide và bản chép lời do ông trình bày
- Prompt Injection = "một cuộc tấn công nhắm vào ứng dụng được xây dựng dựa trên mô hình AI" "không phải là cuộc tấn công vào mô hình AI"
- Demo về ví dụ injection trong dịch thuật và một trang tấn công Bing đang chạy trong Edge Sidebar
- Nếu trợ lý AI của tôi nghe theo lệnh của người khác thì sao? (ví dụ giải thích một prompt yêu cầu chuyển tiếp email đặt lại mật khẩu đến nơi nào đó)
- Có những giải pháp cho việc này như Prompt begging, nhưng chúng hoạt động không tốt
- Đề xuất của tôi là... tuy không thật sự tốt nhưng có vẻ có thể giải quyết phần nào bằng mẫu Dual Language Model
- Cấu thành trợ lý AI bằng 2 LLM khác nhau: Privileged LLM và Quarantined LLM
- Privileged LLM
- Có thể truy cập công cụ
- Chỉ xử lý đầu vào đáng tin cậy
- Ra chỉ thị cho Quarantined LLM, nhưng không xem đầu vào hay đầu ra của nó
- Chỉ xử lý bằng token: "Summarize text $VAR1"
- "Display $SUMMARY2 to the User"
- Quarantined LLM
- Xử lý tác vụ đối với đầu vào không đáng tin cậy (như tóm tắt)
- Không thể truy cập bất kỳ thứ gì khác
- Giả định mọi đầu vào và đầu ra đều đã bị nhiễm bẩn - không trực tiếp chuyển bất cứ thứ gì sang Privileged LLM
- Prompt injection là một lỗ hổng bảo mật rất nghiêm trọng; nếu không hiểu nó thì gần như không thể triển khai cách đối phó
- Mọi ứng dụng được xây dựng trên mô hình ngôn ngữ về cơ bản đều dễ bị vấn đề này
- Vì chưa có lời giải cho prompt injection, đôi khi phải nói "Không" nếu không thể phát triển ứng dụng một cách an toàn
- Với tư cách là nhà phát triển, tôi thực sự ghét việc trở thành người nói "điều đó là không thể", nhưng tôi nghĩ trong trường hợp này điều đó thực sự quan trọng
Chưa có bình luận nào.