- Machine unlearning là việc loại bỏ dữ liệu không mong muốn khỏi mô hình đã được huấn luyện, và mối quan tâm đến việc chỉnh sửa mô hình mà không cần huấn luyện lại từ đầu đang gia tăng
- Ví dụ gồm việc loại bỏ thông tin cá nhân, tri thức đã lỗi thời, tài liệu có bản quyền, nội dung độc hại/nguy hiểm, các khả năng rủi ro, thông tin sai lệch, v.v.
Các dạng unlearning
- Exact unlearning
- Yêu cầu mô hình sau unlearning và mô hình được huấn luyện lại phải đồng nhất về mặt phân phối
- Điểm cốt lõi là thuật toán huấn luyện có các thành phần mô-đun tương ứng với các tập ví dụ huấn luyện khác nhau
- "Unlearning" thông qua Differential Privacy
- Mục tiêu là khiến mô hình không phụ thuộc vào một điểm dữ liệu cụ thể
- Yêu cầu sự gần nhau về phân phối giữa mô hình sau unlearning và mô hình được huấn luyện lại
- Empirical unlearning với không gian ví dụ đã biết
- Áp dụng khi dữ liệu cần unlearning được biết chính xác
- Cách làm là unlearning thông qua fine-tuning mô hình
- Empirical unlearning với không gian ví dụ chưa biết
- Áp dụng khi phạm vi hoặc ranh giới của dữ liệu cần unlearning không rõ ràng
- Bao gồm các trường hợp unlearning khái niệm, sự thật, tri thức, v.v.
- Chỉ cần yêu cầu unlearning
- Cách tiếp cận là trực tiếp yêu cầu một LLM mạnh thực hiện unlearning
Đánh giá unlearning
- Đánh giá unlearning là một vấn đề rất khó, đặc biệt là do thiếu nghiêm trọng các chỉ số và benchmark
- Khi đánh giá unlearning, cần tập trung vào ba khía cạnh sau
- Hiệu quả: thuật toán nhanh hơn bao nhiêu so với huấn luyện lại
- Tính hữu dụng của mô hình: có suy giảm hiệu năng trên dữ liệu cần giữ lại hay các tác vụ trực giao hay không
- Chất lượng quên: dữ liệu cần quên thực sự đã được unlearning đến mức nào
- Các benchmark TOFU và WMDP gần đây đã được đề xuất và đang hỗ trợ cho việc đánh giá unlearning
- TOFU tập trung vào unlearning thông tin cá nhân của tác giả, còn WMDP tập trung vào unlearning tri thức nguy hiểm liên quan đến an toàn sinh học/an ninh mạng
- Chúng thực hiện đánh giá ở cấp độ cao dựa trên việc sở hữu và mức độ hiểu biết tri thức, thay vì dựa trên từng instance
- Có vẻ cần các benchmark unlearning theo hướng ứng dụng, tập trung vào thông tin định danh cá nhân, bản quyền, độc hại, backdoor, v.v.
Thực tế và triển vọng của unlearning
- Độ khó của unlearning tồn tại trên một phổ
- Unlearning văn bản có tần suất thấp là dễ nhất, sau đó khó dần với văn bản tần suất cao và các sự thật mang tính nền tảng
- Lý do là tri thức càng nền tảng thì càng liên kết mạnh với các tri thức khác, khiến phạm vi unlearning tăng theo cấp số nhân
- Các ví dụ được học từ sớm có thể bị các ví dụ về sau "ghi đè", nên việc unlearning có thể khó khăn
- Ngược lại, các ví dụ được học muộn có thể bị mô hình quên dần hoặc quên nghiêm trọng, khiến việc unlearning cũng trở nên khó
- Bảo vệ bản quyền
- Unlearning có vẻ đầy hứa hẹn cho việc bảo vệ bản quyền, nhưng hiện tại bối cảnh pháp lý vẫn chưa rõ ràng
- Nếu việc sử dụng nội dung có bản quyền được xem là fair use theo học thuyết sử dụng hợp lý, thì unlearning có thể là không cần thiết
- Hệ thống AI dựa trên tìm kiếm
- Cách làm là loại bỏ nội dung có thể nhận yêu cầu unlearning khỏi corpus tiền huấn luyện và lưu nó vào cơ sở dữ liệu bên ngoài
- Khi có yêu cầu unlearning, chỉ cần xóa dữ liệu đó khỏi DB
- Tuy vậy, vẫn có các vấn đề như loại bỏ trùng lặp, xử lý trích dẫn/biến thể, và các cuộc tấn công trích xuất dữ liệu
- An toàn AI
- Unlearning có thể được dùng để loại bỏ tri thức, hành vi, năng lực nguy hiểm của mô hình
- Tuy nhiên, nó nên được xem là một trong các cơ chế giảm thiểu rủi ro và phòng thủ hậu kỳ, đồng thời cần nhận thức rằng có trade-off với các công cụ khác như alignment fine-tuning hay lọc nội dung
Ý kiến của GN⁺
- Machine unlearning vẫn còn ở giai đoạn đầu của nghiên cứu, và dường như có rất nhiều khó khăn, đặc biệt với các mô hình ngôn ngữ lớn. Ngoại trừ một số trường hợp đặc biệt có thể exact unlearning, phần lớn hiện nay vẫn dựa vào các phương pháp mang tính thực nghiệm và kinh nghiệm.
- Vấn đề đánh giá unlearning có vẻ là trở ngại lớn nhất. Định nghĩa và tiêu chí của unlearning vẫn mơ hồ, và trong bối cảnh mỗi ứng dụng lại khác nhau, sẽ rất khó phát triển nếu thiếu benchmark và chỉ số đánh giá phù hợp. Việc gần đây xuất hiện các benchmark theo hướng ứng dụng như TOFU, WMDP là một tín hiệu đáng khích lệ.
- Với vấn đề bản quyền, ngoài unlearning cũng có thể cân nhắc các giải pháp kinh tế. OpenAI đang làm theo hướng cung cấp dịch vụ exact unlearning thông qua tái huấn luyện định kỳ, và trong khoảng thời gian giữa các lần đó, chủ sở hữu mô hình sẽ miễn trách nhiệm đối với các vi phạm bản quyền phát sinh.
- Các hệ thống dựa trên tìm kiếm có nhiều ưu điểm, nhưng đi vào chi tiết thì có vẻ không hề đơn giản như tưởng tượng. Vẫn còn nhiều bài toán cần giải quyết như loại bỏ trùng lặp, nhận diện bản quyền, phòng thủ trước các cuộc tấn công trích xuất dữ liệu. Năng lực in-context learning của LLM đang tăng lên, nên có thể ngày càng nhiều việc làm được chỉ với retrieval, nhưng có lẽ vẫn khó thay thế hoàn toàn fine-tuning.
- Từ góc độ an toàn AI, unlearning là một hướng nghiên cứu khá thú vị. Tuy nhiên, đây không phải lời giải vạn năng, mà cần được sử dụng cùng với các kỹ thuật phòng thủ khác như alignment, filtering, v.v. Khi mô hình ngày càng có tính tự chủ, mối quan tâm từ góc độ chính sách/quy định cũng có thể sẽ tăng lên.
2 bình luận
Thử thách Machine Unlearning của Google
Ý kiến trên Hacker News