Hack các mô hình AI ngôn ngữ tự nhiên
(arxiv.org)-
Theo một bài báo do Google, Harvard, Stanford, OpenAI và Apple công bố chung, chỉ bằng cách đặt câu hỏi cho các mô hình ngôn ngữ lớn, người ta có thể trích xuất ra những dữ liệu cụ thể đã được dùng trong quá trình huấn luyện.
-
Cuộc tấn công nhắm vào GPT-2 đã trích xuất được các tiêu đề tin tức và thông tin cá nhân như địa chỉ nhà với độ chính xác rất cao.
-
Không chỉ riêng GPT-2, các mô hình ngôn ngữ khác cũng có thể dễ bị kiểu tấn công này, vì vậy cần chú ý hơn nữa đến việc tiền xử lý dữ liệu huấn luyện.
Chưa có bình luận nào.