Prompt Injection là gì

xguru · 2023-05-17T11:05:01+09:00

Simon Willison đã công bố video, slide và bản chép lời do ông trình bày Prompt Injection = "một cuộc tấn công nhắm vào ứng dụng được xây dựng dựa trên mô hình AI" "không phải là cuộc tấn công vào mô hình AI" Demo về ví dụ injection trong dịch thuật và một trang tấn công Bing đang chạy trong Edge Sidebar Nếu trợ lý AI của tôi nghe theo lệnh của người khác thì sao? (ví dụ giải thích một prompt yêu cầu chuyển tiếp email đặt lại mật khẩu đến nơi nào đó) Có những giải pháp cho việc này như Prompt begging, nhưng chúng hoạt động không tốt Đề xuất của tôi là... tuy không thật sự tốt nhưng có vẻ có thể giải quyết phần nào bằng mẫu Dual Language Model Cấu thành trợ lý AI bằng 2 LLM khác nhau: Privileged LLM và Quarantined LLM Privileged LLM Có thể truy cập công cụ Chỉ xử lý đầu vào đáng tin cậy Ra chỉ thị cho Quarantined LLM, nhưng không xem đầu vào hay đầu ra của nó Chỉ xử lý bằng token: "Summarize text $VAR1" "Display $SUMMARY2 to the User" Quarantined LLM Xử lý tác vụ đối với đầu vào không đáng tin cậy (như tóm tắt) Không thể truy cập bất kỳ thứ gì khác Giả định mọi đầu vào và đầu ra đều đã bị nhiễm bẩn - không trực tiếp chuyển bất cứ thứ gì sang Privileged LLM Prompt injection là một lỗ hổng bảo mật rất nghiêm trọng; nếu không hiểu nó thì gần như không thể triển khai cách đối phó Mọi ứng dụng được xây dựng trên mô hình ngôn ngữ về cơ bản đều dễ bị vấn đề này Vì chưa có lời giải cho prompt injection, đôi khi phải nói "Không" nếu không thể phát triển ứng dụng một cách an toàn Với tư cách là nhà phát triển, tôi thực sự ghét việc trở thành người nói "điều đó là không thể", nhưng tôi nghĩ trong trường hợp này điều đó thực sự quan trọng

(simonwillison.net)

21 điểm bởi xguru 2023-05-17 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Simon Willison đã công bố video, slide và bản chép lời do ông trình bày
Prompt Injection = "một cuộc tấn công nhắm vào ứng dụng được xây dựng dựa trên mô hình AI" "không phải là cuộc tấn công vào mô hình AI"
Demo về ví dụ injection trong dịch thuật và một trang tấn công Bing đang chạy trong Edge Sidebar
Nếu trợ lý AI của tôi nghe theo lệnh của người khác thì sao? (ví dụ giải thích một prompt yêu cầu chuyển tiếp email đặt lại mật khẩu đến nơi nào đó)
Có những giải pháp cho việc này như Prompt begging, nhưng chúng hoạt động không tốt
Đề xuất của tôi là... tuy không thật sự tốt nhưng có vẻ có thể giải quyết phần nào bằng mẫu Dual Language Model
- Cấu thành trợ lý AI bằng 2 LLM khác nhau: Privileged LLM và Quarantined LLM
- Privileged LLM
  - Có thể truy cập công cụ
  - Chỉ xử lý đầu vào đáng tin cậy
  - Ra chỉ thị cho Quarantined LLM, nhưng không xem đầu vào hay đầu ra của nó
  - Chỉ xử lý bằng token: "Summarize text $VAR1"
  - "Display $SUMMARY2 to the User"
- Quarantined LLM
  - Xử lý tác vụ đối với đầu vào không đáng tin cậy (như tóm tắt)
  - Không thể truy cập bất kỳ thứ gì khác
  - Giả định mọi đầu vào và đầu ra đều đã bị nhiễm bẩn - không trực tiếp chuyển bất cứ thứ gì sang Privileged LLM
Prompt injection là một lỗ hổng bảo mật rất nghiêm trọng; nếu không hiểu nó thì gần như không thể triển khai cách đối phó
Mọi ứng dụng được xây dựng trên mô hình ngôn ngữ về cơ bản đều dễ bị vấn đề này
Vì chưa có lời giải cho prompt injection, đôi khi phải nói "Không" nếu không thể phát triển ứng dụng một cách an toàn
Với tư cách là nhà phát triển, tôi thực sự ghét việc trở thành người nói "điều đó là không thể", nhưng tôi nghĩ trong trường hợp này điều đó thực sự quan trọng

Prompt Injection là gì

Bài viết liên quan

Chưa có bình luận nào.