Machine Unlearning trong năm 2024

(ai.stanford.edu)

17 điểm bởi GN⁺ 2024-05-06 | 2 bình luận | Chia sẻ qua WhatsApp

Machine unlearning là việc loại bỏ dữ liệu không mong muốn khỏi mô hình đã được huấn luyện, và mối quan tâm đến việc chỉnh sửa mô hình mà không cần huấn luyện lại từ đầu đang gia tăng
- Ví dụ gồm việc loại bỏ thông tin cá nhân, tri thức đã lỗi thời, tài liệu có bản quyền, nội dung độc hại/nguy hiểm, các khả năng rủi ro, thông tin sai lệch, v.v.

Các dạng unlearning

Exact unlearning
- Yêu cầu mô hình sau unlearning và mô hình được huấn luyện lại phải đồng nhất về mặt phân phối
- Điểm cốt lõi là thuật toán huấn luyện có các thành phần mô-đun tương ứng với các tập ví dụ huấn luyện khác nhau
"Unlearning" thông qua Differential Privacy
- Mục tiêu là khiến mô hình không phụ thuộc vào một điểm dữ liệu cụ thể
- Yêu cầu sự gần nhau về phân phối giữa mô hình sau unlearning và mô hình được huấn luyện lại
Empirical unlearning với không gian ví dụ đã biết
- Áp dụng khi dữ liệu cần unlearning được biết chính xác
- Cách làm là unlearning thông qua fine-tuning mô hình
Empirical unlearning với không gian ví dụ chưa biết
- Áp dụng khi phạm vi hoặc ranh giới của dữ liệu cần unlearning không rõ ràng
- Bao gồm các trường hợp unlearning khái niệm, sự thật, tri thức, v.v.
Chỉ cần yêu cầu unlearning
- Cách tiếp cận là trực tiếp yêu cầu một LLM mạnh thực hiện unlearning

Đánh giá unlearning

Đánh giá unlearning là một vấn đề rất khó, đặc biệt là do thiếu nghiêm trọng các chỉ số và benchmark
Khi đánh giá unlearning, cần tập trung vào ba khía cạnh sau
- Hiệu quả: thuật toán nhanh hơn bao nhiêu so với huấn luyện lại
- Tính hữu dụng của mô hình: có suy giảm hiệu năng trên dữ liệu cần giữ lại hay các tác vụ trực giao hay không
- Chất lượng quên: dữ liệu cần quên thực sự đã được unlearning đến mức nào
Các benchmark TOFU và WMDP gần đây đã được đề xuất và đang hỗ trợ cho việc đánh giá unlearning
- TOFU tập trung vào unlearning thông tin cá nhân của tác giả, còn WMDP tập trung vào unlearning tri thức nguy hiểm liên quan đến an toàn sinh học/an ninh mạng
- Chúng thực hiện đánh giá ở cấp độ cao dựa trên việc sở hữu và mức độ hiểu biết tri thức, thay vì dựa trên từng instance
Có vẻ cần các benchmark unlearning theo hướng ứng dụng, tập trung vào thông tin định danh cá nhân, bản quyền, độc hại, backdoor, v.v.

Thực tế và triển vọng của unlearning

Độ khó của unlearning tồn tại trên một phổ
- Unlearning văn bản có tần suất thấp là dễ nhất, sau đó khó dần với văn bản tần suất cao và các sự thật mang tính nền tảng
- Lý do là tri thức càng nền tảng thì càng liên kết mạnh với các tri thức khác, khiến phạm vi unlearning tăng theo cấp số nhân
- Các ví dụ được học từ sớm có thể bị các ví dụ về sau "ghi đè", nên việc unlearning có thể khó khăn
- Ngược lại, các ví dụ được học muộn có thể bị mô hình quên dần hoặc quên nghiêm trọng, khiến việc unlearning cũng trở nên khó
Bảo vệ bản quyền
- Unlearning có vẻ đầy hứa hẹn cho việc bảo vệ bản quyền, nhưng hiện tại bối cảnh pháp lý vẫn chưa rõ ràng
- Nếu việc sử dụng nội dung có bản quyền được xem là fair use theo học thuyết sử dụng hợp lý, thì unlearning có thể là không cần thiết
Hệ thống AI dựa trên tìm kiếm
- Cách làm là loại bỏ nội dung có thể nhận yêu cầu unlearning khỏi corpus tiền huấn luyện và lưu nó vào cơ sở dữ liệu bên ngoài
- Khi có yêu cầu unlearning, chỉ cần xóa dữ liệu đó khỏi DB
- Tuy vậy, vẫn có các vấn đề như loại bỏ trùng lặp, xử lý trích dẫn/biến thể, và các cuộc tấn công trích xuất dữ liệu
An toàn AI
- Unlearning có thể được dùng để loại bỏ tri thức, hành vi, năng lực nguy hiểm của mô hình
- Tuy nhiên, nó nên được xem là một trong các cơ chế giảm thiểu rủi ro và phòng thủ hậu kỳ, đồng thời cần nhận thức rằng có trade-off với các công cụ khác như alignment fine-tuning hay lọc nội dung

Ý kiến của GN⁺

Machine unlearning vẫn còn ở giai đoạn đầu của nghiên cứu, và dường như có rất nhiều khó khăn, đặc biệt với các mô hình ngôn ngữ lớn. Ngoại trừ một số trường hợp đặc biệt có thể exact unlearning, phần lớn hiện nay vẫn dựa vào các phương pháp mang tính thực nghiệm và kinh nghiệm.
Vấn đề đánh giá unlearning có vẻ là trở ngại lớn nhất. Định nghĩa và tiêu chí của unlearning vẫn mơ hồ, và trong bối cảnh mỗi ứng dụng lại khác nhau, sẽ rất khó phát triển nếu thiếu benchmark và chỉ số đánh giá phù hợp. Việc gần đây xuất hiện các benchmark theo hướng ứng dụng như TOFU, WMDP là một tín hiệu đáng khích lệ.
Với vấn đề bản quyền, ngoài unlearning cũng có thể cân nhắc các giải pháp kinh tế. OpenAI đang làm theo hướng cung cấp dịch vụ exact unlearning thông qua tái huấn luyện định kỳ, và trong khoảng thời gian giữa các lần đó, chủ sở hữu mô hình sẽ miễn trách nhiệm đối với các vi phạm bản quyền phát sinh.
Các hệ thống dựa trên tìm kiếm có nhiều ưu điểm, nhưng đi vào chi tiết thì có vẻ không hề đơn giản như tưởng tượng. Vẫn còn nhiều bài toán cần giải quyết như loại bỏ trùng lặp, nhận diện bản quyền, phòng thủ trước các cuộc tấn công trích xuất dữ liệu. Năng lực in-context learning của LLM đang tăng lên, nên có thể ngày càng nhiều việc làm được chỉ với retrieval, nhưng có lẽ vẫn khó thay thế hoàn toàn fine-tuning.
Từ góc độ an toàn AI, unlearning là một hướng nghiên cứu khá thú vị. Tuy nhiên, đây không phải lời giải vạn năng, mà cần được sử dụng cùng với các kỹ thuật phòng thủ khác như alignment, filtering, v.v. Khi mô hình ngày càng có tính tự chủ, mối quan tâm từ góc độ chính sách/quy định cũng có thể sẽ tăng lên.

2 bình luận

xguru 2024-05-07

Thử thách Machine Unlearning của Google

GN⁺ 2024-05-06

Ý kiến trên Hacker News

Có một vấn đề mang tính nền tảng là ngay cả khi xóa một thông tin cụ thể khỏi mô hình, nó vẫn có thể được học lại thông qua suy luận hoặc prompting
Thay vì lọc chính thông tin bị cấm, có thể lời giải nằm ở các trọng số và cơ chế khuyến khích hình thành lớp suy luận cuối cùng
Các mô hình "an toàn" hiện nay thường cho kết quả không mấy thỏa đáng, vì điều chúng ta muốn hiện tại chưa phải là một mô hình trung thực, mà là một mô hình cho phép tiếp tục phát triển thêm
Có thể tồn tại cách mã hóa và gán trọng số cho nguyên tắc rằng mô hình được tạo ra bởi một thứ gì đó bên ngoài
Xóa các bộ dữ liệu vi phạm bản quyền có thể là cách được chấp nhận nhiều nhất về mặt pháp lý
Sẽ thế nào nếu thay vì thu thập mọi nội dung, ta chỉ thu thập những nội dung được đánh dấu rõ ràng là có thể dùng để xây dựng mô hình?
Nếu mô hình được huấn luyện bằng DP, dữ liệu có thể bị trộn lẫn quá nhiều đến mức không còn trả về dữ liệu chính xác được nữa, hoặc ngược lại, bước DP trở nên vô dụng
Xóa bỏ tri thức là một công việc có vấn đề
Có lo ngại về "tính lành mạnh" của AI đã được huấn luyện, bỏ huấn luyện và huấn luyện lại
Năm 2014, các nhà hoạch định chính sách đã không dự đoán được rằng deep learning sẽ trở thành một khối pha trộn khổng lồ của dữ liệu và năng lực tính toán
"Học bỏ" không phải là mục tiêu thực sự, và cũng không phải là mong muốn mô hình chôn đầu vào cát theo nghĩa ẩn dụ
Đối với các startup mới, hãy thêm vào vòng lặp huấn luyện ML một đám đông cầm cào

Machine Unlearning trong năm 2024

Các dạng unlearning

Đánh giá unlearning

Thực tế và triển vọng của unlearning

Ý kiến của GN⁺

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News