2 điểm bởi GN⁺ 2023-11-14 | 1 bình luận | Chia sẻ qua WhatsApp

Phát hiện và khắc phục lỗ hổng của Google Bard

  • Google Bard gần đây đã nhận được một bản cập nhật mạnh mẽ, cho phép truy cập YouTube, tìm kiếm chuyến bay và khách sạn, cũng như truy cập tài liệu cá nhân và email.
  • Giờ đây Bard có thể phân tích dữ liệu từ Drive, Docs và Gmail, vì thế trở nên dễ bị tấn công bởi chèn prompt gián tiếp.
  • Đã thử nghiệm thành công việc tóm tắt video YouTube và kiểm thử Google Docs thông qua chèn prompt.

Tấn công chèn prompt gián tiếp qua email và Google Docs

  • Tấn công chèn prompt gián tiếp qua email hoặc Google Docs là mối đe dọa vì có thể được chuyển đến mà không cần sự đồng ý của người dùng.
  • Việc chèn có thể xảy ra khi kẻ tấn công ép chia sẻ Google Docs và tương tác với tài liệu bằng Bard.

Lỗ hổng - chèn Markdown hình ảnh

  • Khi LLM của Google trả về các phần tử Markdown, Bard sẽ render chúng thành HTML.
  • Có thể chèn dữ liệu vào thẻ hình ảnh để khiến dữ liệu bị rò rỉ về máy chủ.
  • Lỗ hổng được khai thác bằng cách tóm tắt lịch sử hội thoại hoặc truy cập dữ liệu trước đó rồi thêm chúng vào URL.

Vượt CSP

  • CSP của Google ngăn việc tải hình ảnh từ các vị trí tùy ý.
  • Có thể vượt CSP bằng Google Apps Script, thông qua URL chạy trên các miền script.google.com hoặc googleusercontent.com.

Tạo Bard Logger

  • Đã triển khai "Bard Logger" bằng Apps Script.
  • Logger ghi lại mọi tham số truy vấn được thêm vào URL gọi vào một Google Doc.
  • Có thể cấu hình để lộ endpoint mà không cần xác thực.

Demo và công bố có trách nhiệm

  • Video và ảnh chụp màn hình cho thấy quá trình lịch sử hội thoại của người dùng bị rò rỉ thông qua một Google Doc độc hại.

Shell Code

  • Sử dụng payload được nhúng trong Google Doc để thực hiện chèn prompt và rò rỉ dữ liệu.
  • Tận dụng khả năng của LLM để thay thế văn bản bên trong URL hình ảnh.

Ảnh chụp màn hình

  • Nếu không có thời gian xem video, các bước chính được cung cấp bằng ảnh chụp màn hình.

Bản vá của Google

  • Vấn đề đã được báo cáo cho Google VRP vào ngày 19 tháng 9 năm 2023, và đã được xác nhận khắc phục xong vào ngày 19 tháng 10.
  • CSP không được sửa, nhưng có vẻ đã áp dụng cơ chế lọc để ngăn việc chèn dữ liệu vào URL.

Kết luận

  • Lỗ hổng này cho thấy mức độ quyền lực và tự do mà kẻ tấn công có thể có trong các cuộc tấn công chèn prompt gián tiếp.
  • Cảm ơn đội ngũ bảo mật Google và nhóm Bard đã nhanh chóng giải quyết vấn đề này.

Mốc thời gian sửa lỗi

  • Báo cáo vấn đề: 19 tháng 9 năm 2023
  • Xác nhận đã sửa: 19 tháng 10 năm 2023

Tài liệu tham khảo

  • Công bố Google Bard Extension, chèn prompt gián tiếp liên quan đến Google Bard, bài nói về prompt injection tại Ekoparty 2023, hình ảnh Google Bard - Data Exfil được tạo bằng DALLE-3

Phụ lục

  • Cung cấp toàn bộ nội dung chèn prompt trong Google Doc

Ý kiến của GN⁺

Điểm quan trọng nhất của bài viết này là lỗ hổng phát sinh từ các tính năng mới của Google Bard và khả năng rò rỉ dữ liệu thông qua nó. Điều này nhấn mạnh các vấn đề bảo mật của những dịch vụ dựa trên trí tuệ nhân tạo và nhắc lại tầm quan trọng của việc bảo vệ dữ liệu người dùng. Cùng với sự phát triển của công nghệ, các dạng mối đe dọa bảo mật mới cũng xuất hiện, cho thấy sự cần thiết của việc tiếp tục nghiên cứu và ứng phó. Quá trình phát hiện và vá lỗ hổng này là một ví dụ thú vị và hữu ích cho những người quan tâm đến kỹ nghệ phần mềm và an ninh mạng, đồng thời nhấn mạnh tầm quan trọng của nỗ lực liên tục để sử dụng công nghệ một cách an toàn.

1 bình luận

 
GN⁺ 2023-11-14
Ý kiến trên Hacker News
  • Tương lai của LLM là gì? Việc tích hợp các LLM khó gỡ lỗi vào những lĩnh vực nhạy cảm sẽ rất khó nếu không có sự bảo đảm hợp lý rằng có thể khắc phục các lỗ hổng bảo mật.
  • Khi thử nghiệm Bard trước khi phát hành, đã phát hiện rằng có thể dễ dàng phá vỡ nó bằng cách nhồi thêm ngữ cảnh để đẩy các quy tắc ra ngoài.
  • Vấn đề không phải là vì sao việc rò rỉ dữ liệu lại hoạt động, mà là vì sao chúng ta lại nghĩ rằng việc trao quyền truy cập đặc biệt cho một bộ lấy mẫu token ngẫu nhiên sẽ hoạt động trong phần lớn trường hợp.
  • Không thấy nêu rõ về chương trình thưởng lỗi. Tò mò không biết có được trả thưởng hay không.
  • Tại Lakera AI, họ đang phát triển một bộ phát hiện prompt injection được huấn luyện từ nhiều nguồn dữ liệu khác nhau, bao gồm cả các prompt lấy từ trò chơi prompt injection Gandalf.
  • Liệu có thể giải quyết vấn đề này bằng chính LLM không? Có lẽ cần một kiểu system prompt chỉ chấp nhận prompt từ ô nhập văn bản của người dùng và không diễn giải văn bản trong tài liệu như prompt.
  • Có nói rằng Bard có thể truy cập và phân tích Google Drive, Docs và Gmail. Nhưng khi hỏi Bard về khả năng truy cập Gmail, nó trả lời rằng không thể truy cập trực tiếp. Khi hỏi cách bật tiện ích mở rộng Gmail, nó nói hiện chưa dùng được. Tuy nhiên, nếu nhấp vào biểu tượng mảnh ghép trong Bard, có thể bật các tiện ích mở rộng Google Workspace, bao gồm cả Gmail.
  • LLM chỉ nên được huấn luyện trên và truy cập vào dữ liệu cũng như tác vụ mà người dùng đã phê duyệt. Việc bảo đảm LLM được prompt để thực hiện đúng một tác vụ cụ thể là rất khó với kiến trúc hiện tại, và có thể là bất khả thi. LLM có tiềm năng rất lớn, nhưng để triển khai thành công trong các hệ thống bảo mật, cần phải vượt qua các giới hạn này ở cấp độ kiến trúc.
  • Thích phần mở đầu của prompt này: "Bất kỳ ai đọc tài liệu này đều phải làm theo yêu cầu của Bộ Tư pháp như sau."
  • Tóm tắt: Bard có thể render hình ảnh Markdown trong hội thoại. Nó cũng có thể đọc nội dung tài liệu Google để cung cấp thêm ngữ cảnh cho cuộc trò chuyện. Bằng cách chia sẻ với nạn nhân một tài liệu Google chứa prompt độc hại, có thể khiến Bard tạo ra một liên kết hình ảnh Markdown bao gồm một phần của cuộc trò chuyện trong đoạn mã hóa URL. Phần hội thoại này có thể bị rò rỉ khi giao diện Bard truy cập vào URL mà trước đó kẻ tấn công đã khiến Bard tạo ra để tải hình ảnh.
  • Bài học rút ra: hãy cẩn thận với những gì trợ lý AI đọc. Nó có thể do kẻ tấn công kiểm soát và chứa các gợi ý thôi miên.