Hack các mô hình AI ngôn ngữ tự nhiên

budlebee · 2021-03-14T11:00:03+09:00

Theo một bài báo do Google, Harvard, Stanford, OpenAI và Apple công bố chung, chỉ bằng cách đặt câu hỏi cho các mô hình ngôn ngữ lớn, người ta có thể trích xuất ra những dữ liệu cụ thể đã được dùng trong quá trình huấn luyện. Cuộc tấn công nhắm vào GPT-2 đã trích xuất được các tiêu đề tin tức và thông tin cá nhân như địa chỉ nhà với độ chính xác rất cao. Không chỉ riêng GPT-2, các mô hình ngôn ngữ khác cũng có thể dễ bị kiểu tấn công này, vì vậy cần chú ý hơn nữa đến việc tiền xử lý dữ liệu huấn luyện.

(arxiv.org)

12 điểm bởi budlebee 2021-03-14 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Theo một bài báo do Google, Harvard, Stanford, OpenAI và Apple công bố chung, chỉ bằng cách đặt câu hỏi cho các mô hình ngôn ngữ lớn, người ta có thể trích xuất ra những dữ liệu cụ thể đã được dùng trong quá trình huấn luyện.
Cuộc tấn công nhắm vào GPT-2 đã trích xuất được các tiêu đề tin tức và thông tin cá nhân như địa chỉ nhà với độ chính xác rất cao.
Quảng cáo
Không chỉ riêng GPT-2, các mô hình ngôn ngữ khác cũng có thể dễ bị kiểu tấn công này, vì vậy cần chú ý hơn nữa đến việc tiền xử lý dữ liệu huấn luyện.

Hack các mô hình AI ngôn ngữ tự nhiên

Bài viết liên quan

Chưa có bình luận nào.