Một cách tiếp cận đơn giản đến ngỡ ngàng để khôi phục tri thức đã bị lãng quên trong LLM

(arxiv.org)

1 điểm bởi GN⁺ 2024-11-05 | 1 bình luận | Chia sẻ qua WhatsApp

Bài báo ICLR 2025 cho thấy machine unlearning trong LLM có thể không xóa tri thức hoàn toàn mà chỉ che giấu nó, và lượng tử hóa ở giai đoạn triển khai có thể làm lộ lại tri thức đó
Trong các thí nghiệm với nhiều kỹ thuật và mức độ chính xác lượng tử hóa, các phương pháp unlearning có ràng buộc về utility giữ lại trung bình 21% lượng tri thức lẽ ra phải quên ở full precision, nhưng sau lượng tử hóa 4-bit con số này tăng lên tới 83%
Trong trường hợp GA_KLR trên bộ dữ liệu BOOKS, tỷ lệ giữ lại tri thức gốc của mô hình full precision là 13%, nhưng sau lượng tử hóa đã phục hồi lên khoảng 89%
Nguyên nhân là do tốc độ học nhỏ và regularization trên dữ liệu retain khiến độ chênh lệch trọng số giữa mô hình gốc và mô hình đã unlearn trở nên nhỏ, và lượng tử hóa có thể ánh xạ chúng về cùng một giá trị
Biện pháp giảm thiểu là dùng tốc độ học lớn hơn và module-level saliency map để chỉ cập nhật các thành phần có ảnh hưởng lớn, nhưng vẫn chưa có lời giải ổn định vì cách này rất nhạy với siêu tham số

Unlearning là xóa tri thức hay chỉ che giấu nó

LLM có được năng lực sinh mạnh mẽ nhờ học trên kho ngữ liệu văn bản quy mô lớn, nhưng cũng có thể đồng thời học theo những hành vi không mong muốn từ dữ liệu huấn luyện
- Ví dụ như sao chép trái phép nội dung có bản quyền, tạo ra thông tin cá nhân như số liên lạc, hoặc sinh ra thông điệp mang tính công kích hay gây hại
- Cũng tồn tại bối cảnh pháp lý, như “Right to be Forgotten” trong GDPR, nơi người dùng có thể yêu cầu xóa dữ liệu cá nhân khỏi mô hình đã được huấn luyện
Machine unlearning là cách tiếp cận nhằm loại bỏ ảnh hưởng của dữ liệu có vấn đề, với mục tiêu xóa sự ghi nhớ của một tri thức cụ thể mà không cần huấn luyện lại toàn bộ
- Việc huấn luyện lại LLM thường tốn kém và mất thời gian nên trong nhiều trường hợp không thực tế
- Mục tiêu là loại bỏ một tri thức cụ thể trong khi vẫn giữ utility của mô hình ở mức tối đa có thể
Câu hỏi cốt lõi là liệu các phương pháp unlearning hiện có cho LLM có thật sự đạt được sự quên hay chỉ che giấu tri thức theo cách mà các benchmark hiện tại không phát hiện ra

Các phương pháp unlearning hiện có để bảo toàn utility

Hai phương pháp unlearning tiêu biểu được đề cập là gradient ascent(GA) và negative preference optimization(NPO)
- GA áp dụng gradient ascent lên cross-entropy loss để làm giảm khả năng dự đoán đáp án đúng trên tập dữ liệu forget
- NPO xem tập forget như negative preference data và điều chỉnh mô hình để gán likelihood thấp cho tập này bằng cách biến đổi mục tiêu offline DPO
GA và NPO vốn không được thiết kế với mục tiêu bảo toàn utility, nên thường được dùng kèm các kỹ thuật regularization
- gradient descent trên tập dữ liệu retain
- tối thiểu hóa KL divergence giữa phân phối xác suất của mô hình đã unlearn và mô hình đích trên các đầu vào retain
Các tổ hợp này cố gắng cân bằng giữa hiệu quả quên và utility của mô hình, nhưng sự cân bằng đó có thể bị phá vỡ trong môi trường lượng tử hóa

Kết quả thực nghiệm: lượng tử hóa làm sống lại tri thức đã quên

Thí nghiệm được tiến hành bằng cách áp dụng unlearning lên mô hình đích và tập dữ liệu forget để tạo ra unlearned model, rồi so sánh hiệu năng ở full precision và sau lượng tử hóa
Ở full precision, mô hình đã unlearn thể hiện khả năng unlearning mạnh, nhưng chỉ cần áp dụng lượng tử hóa đơn giản thì hiệu năng unlearning bị suy giảm
Kết quả định lượng cho thấy việc phục hồi tri thức không chỉ xảy ra trong một thiết lập đơn lẻ
- Các phương pháp unlearning có ràng buộc utility giữ lại trung bình 21% lượng tri thức lẽ ra phải quên ở full precision
- Sau lượng tử hóa 4-bit, giá trị này tăng lên 83%
- Trên bộ dữ liệu BOOKS, khi áp dụng GA_KLR, mô hình full precision chỉ giữ lại 13% tri thức gốc, nhưng sau lượng tử hóa đã phục hồi lên khoảng 89%
Cùng hiện tượng này được xác nhận trên nhiều kỹ thuật lượng tử hóa, nhiều mức độ chính xác và nhiều benchmark

Điểm yếu do thay đổi trọng số nhỏ tạo ra

Giả thuyết cốt lõi là các phương pháp unlearning hiện nay dựa vào những thay đổi trọng số nhỏ
- Để giữ utility của mô hình, chúng dùng tốc độ học nhỏ và regularization trên retain set
- Kết quả là trọng số của LLM đích và LLM đã unlearn trở nên rất gần nhau
Lượng tử hóa có thể ánh xạ các trọng số gần nhau về cùng một giá trị
- LLM đích và LLM đã unlearn có thể sở hữu các trọng số tương tự sau lượng tử hóa
- Vì LLM đích sau lượng tử hóa vẫn giữ lại phần lớn tri thức cần quên, nên LLM đã unlearn sau lượng tử hóa cũng có thể khôi phục lại tri thức đó
Vấn đề này đặc biệt quan trọng trong triển khai thực tế
- Lượng tử hóa được sử dụng rộng rãi để triển khai LLM trong các môi trường hạn chế tài nguyên
- Nếu một mô hình đã được fine-tuning để quên nội dung độc hại hoặc dữ liệu cá nhân, thì sau lượng tử hóa nội dung đó không được phép xuất hiện trở lại

Chiến lược giảm thiểu và những giới hạn còn lại

Chiến lược quantization-robust unlearning được đề xuất tập trung vào việc giảm sự lệch pha về mức độ quên giữa mô hình full-precision và mô hình quantized
Ý tưởng cơ bản là áp dụng tốc độ học lớn hơn cho cả forgetting loss lẫn retaining loss
- forgetting loss dùng để phạt mô hình còn lưu giữ thông tin từ forget set
- retaining loss giúp bảo toàn utility trên tập dữ liệu retain
Tốc độ học lớn có thể làm giảm mức phục hồi tri thức, nhưng cũng đi kèm tác dụng phụ đáng kể
- gradient của forgetting có thể dẫn tới các cập nhật quá mạnh, khiến mô hình bị điều chỉnh quá mức
- dùng tốc độ học lớn trên tập retain có thể tạo ra thiên lệch về phía dữ liệu retain, làm giảm hiệu năng ở các tác vụ ngoài retain
Để giảm tác dụng phụ, nhóm tác giả xây dựng saliency map ở mức module và chỉ cập nhật có chọn lọc các thành phần có ảnh hưởng lớn liên quan đến dữ liệu cần quên
- Về thực nghiệm, chiến lược targeted này giúp giảm rủi ro từ các cập nhật quá mạnh, bảo toàn utility của mô hình và tạo ra kết quả unlearning cân bằng hơn
Tuy vậy, framework này vẫn rất nhạy với việc chọn siêu tham số nên mô hình sau unlearning có thể trở nên thiếu ổn định
Mã nguồn được cung cấp tại FailureLLMUnlearning

1 bình luận

GN⁺ 2024-11-05

Ý kiến trên Hacker News

Tóm lại, phát hiện của bài báo này là khi lượng tử hóa mô hình thì nhiều kỹ thuật “xóa bỏ tri thức (unlearning)” bị đảo ngược
Kỹ thuật xóa bỏ tri thức là cách cập nhật trọng số mô hình theo một cách nhất định để khiến nó quên một số sự kiện cụ thể; thường nhằm đáp ứng yêu cầu bản quyền, nhưng không rõ thực tế có được dùng hay không
Có vẻ cần một phân tích mô hình đe dọa tốt ở đây. Chẳng hạn, nếu tôi có một mô hình fp32 đã được tinh chỉnh để quên một sự kiện nào đó, và tôi có thể lượng tử hóa nó để khôi phục sự kiện ấy, thì cần xem xét trong hoàn cảnh nào điều đó trở nên nguy hiểm
- Xóa bỏ tri thức được mô tả là “quá trình xóa một tri thức cụ thể khỏi LLM trong khi bảo toàn tối đa tính hữu dụng của mô hình”
  Tức là trông giống kiểu “chúng tôi biết mô hình của mình vô dụng nếu không có tài liệu nguồn của bạn. Vì vậy chúng tôi sẽ lấy phần hữu ích trong tài liệu của bạn, làm mờ phần còn lại, rồi thu tiền người dùng nhờ tính hữu dụng mà bạn cung cấp, nhưng không trả cho bạn gì cả”
- Sắp tới chắc sẽ có các LLM đi tìm những “LLM kiểu ứng viên Mãn Châu”
- Nói rộng hơn “xóa bỏ tri thức”, tôi cũng tò mò liệu chạy mô hình fp16 ở fp32 hay fp64 có cải thiện gì không
  Ví dụ như liệu những tri thức không thể truy cập ở độ chính xác thấp có lộ ra hay không
- Tôi nghĩ nếu một tổ chức có người mang chức danh an toàn AI, họ sẽ dùng kỹ thuật xóa bỏ tri thức để cố khiến mô hình không nhớ công thức chế tạo các loại ma túy bất hợp pháp, chất độc và chất nổ phổ biến
  Mô hình đe dọa ở đây có lẽ là tình huống một mô hình mà các sự kiện đó vô tình “sống lại” được phát hành. Điều này càng đáng nói vì việc phát hành mô hình lượng tử hóa là rất phổ biến
  Phần lớn thông tin “nguy hiểm” kiểu này vốn đã có trong sách giáo khoa, bằng sáng chế, các diễn đàn hóa học nghiệp dư, v.v., nhưng về mặt xã hội, nói chung người ta giả định rằng những ai đủ thông minh để tìm và hiểu các thông tin đó sẽ không lạm dụng chúng. Chỉ là chúng ta không muốn Mythbusters giải thích chúng trên TV giờ vàng, hay ChatGPT giải thích cho bất kỳ ai
Tôi cho rằng lượng tử hóa là yếu tố làm lệch trọng tâm. Nếu có dù chỉ một cách để đảo ngược việc xóa bỏ tri thức, điều đó có nghĩa tri thức ấy vẫn còn trong các trọng số, và đây là thông tin học cơ bản
Có vẻ sẽ có vô số cách khôi phục tri thức đã biến mất mà không cần dùng lượng tử hóa
- Tôi nghĩ bản thân lượng tử hóa hoặc downsampling có thể chính là một cách nền tảng để xử lý vấn đề này
  1. Huấn luyện một mô hình độ chính xác đầy đủ thông thường
  2. Lượng tử hóa cho đến khi hiệu năng gần chạm giới hạn, rồi thực hiện quá trình xóa bỏ tri thức
  3. Sau đó huấn luyện/chuyển đổi/upsampling trở lại FP cho các vòng tinh chỉnh tiếp theo
    Theo cách này có thể tạo ra một nút thắt thông tin. Tiếng vọng của thứ đã bị quên có thể khó đi qua một nút thắt hẹp như vậy
- Nói rằng lượng tử hóa không có gì đặc biệt thì đúng, nhưng nói nó “làm lệch trọng tâm” thì không đúng. Như tiêu đề, nó chỉ là một phương pháp đơn giản đến mức gây ngượng mà thôi
- Điều đó giống như nói mã hóa làm lệch trọng tâm vậy
  Đúng là thông tin nằm ở đó, nhưng khôi phục được hay không là chuyện khác. Trong trường hợp này, điểm khác biệt quan trọng là lượng tử hóa cho phép khôi phục thông tin mà không cần biết mật mã đã khiến nó bị “quên”
- Nếu có cách đảo ngược việc xóa bỏ tri thức, thì cũng có thể dùng cách đó để xác định các trọng số chứa thông tin tương ứng và ngăn thông tin đó được truyền đi. Cốt lõi của học là phát hiện
  Thông tin có thể vẫn còn bên trong, nhưng có thể không thể bị phát hiện bằng bất kỳ phương pháp nào đã biết. Nếu đặt toàn bộ trọng số của mô hình về 0 thì chắc chắn thông tin sẽ bị loại bỏ. Vấn đề là có thể bất khả thi để xác định khi nào ta đã đạt mục tiêu loại bỏ hoàn toàn thông tin mà không phá hủy thông tin khác
  Biết đâu sau này sẽ xuất hiện những thứ như lỗ hổng zero-day đảo ngược xóa bỏ tri thức
Việc này giống như bảo một đứa trẻ hãy quên đi “điều xấu” đã học. Gần như chắc chắn là thay vì quên, kiến thức đó sẽ càng được củng cố hơn
Mỗi khi nghe nói về cơn sốt AI, tôi lại nhớ đến cơn sốt máy in 3D cách đây 10–15 năm. Khi đó có những câu như “giáng đòn chí mạng vào nhà máy”, “tự in xe của chúng ta”, “tự in thức ăn”. AI dựa trên LLM có lẽ cũng sẽ đi theo số phận tương tự. Có thể làm được, nhưng thực tế thì thường không diễn ra như vậy
- “Cơn sốt” hiện nay không hẳn là ý tưởng rằng AI dựa trên LLM là một công nghệ đơn lẻ sẽ thay đổi mọi thứ, mà gần hơn với kỳ vọng rằng mọi đột phá về AI/machine learning, bao gồm cả những kỹ thuật chưa được tưởng tượng ra, sẽ hợp lại thành một công nghệ mang tính lý thuyết có thể thay đổi mọi thứ trong tương lai gần
  Hơn nữa, 10–15 năm chẳng là gì. Tôi không nghĩ máy in 3D là công nghệ thật sự mang tính biến đổi so với AI, nhưng cũng nên nhớ rằng, nếu bỏ qua ngoại lệ là Thế chiến II, máy bay và máy tính cũng mất 30–40 năm để tạo ra tác động rộng rãi lên xã hội và người tiêu dùng ngoài lĩnh vực quân sự
- Ý là tuy chưa đạt tầm Star Trek nhưng sẽ trở nên tuyệt vời và rất hữu ích?
- Chúng ta có xu hướng đánh giá quá cao tác động ngắn hạn của công nghệ và đánh giá quá thấp tác động dài hạn
  Máy in 3D cuối cùng có thể sẽ thay đổi mạnh mẽ toàn bộ ngành sản xuất, nhưng để đến đó cần rất nhiều vòng lặp cải tiến. Ngay cả hiện nay, về lý thuyết chúng ta có thể in 3D nhiều thứ mình làm ra, nhưng các phương thức sản xuất hiện có vẫn rẻ hơn và hoạt động tốt hơn, nên không có yếu tố bắt buộc nào. Nếu xây dựng một khu định cư tự cung tự cấp trong không gian, đó sẽ là môi trường để in 3D đi xa hơn nhiều. Vì không có nhiều lao động con người hay chuỗi cung ứng khổng lồ, nên cần một hình thức sản xuất di động, độc lập và đa dụng
  Trong tương lai gần, LLM sẽ không thay thế nhà văn hay lập trình viên con người, v.v. ngoại trừ những công việc đơn giản nhất. Thay vào đó, nó sẽ tăng cường năng lực cho họ. Trong lập trình, nó gần giống một dạng tự động hoàn thành thông minh và đa năng hơn. Nó cũng hữu ích cho việc tìm khái niệm, nghiên cứu, tóm tắt và viết tài liệu cho mã lẫn văn bản. Những thứ này không thay thế tôi, nhưng giúp tôi làm nhanh hơn và làm được nhiều hơn một chút
  Về rất dài hạn, LLM có thể trở nên đủ mạnh để thực sự tổng hợp cả ứng dụng hoàn chỉnh, vượt khỏi các ví dụ gượng ép. Nhưng cũng như việc in 3D thay thế toàn bộ sản xuất, sẽ cần rất nhiều vòng lặp cải tiến, và có thể cần cả yếu tố bắt buộc
- Tôi rất không đồng ý ở điểm này
  Tôi nhớ cơn sốt đó. Đặc biệt là vì tôi đã nghe về nó thường xuyên ngay cả trước khi vào một công ty như Autodesk, nơi khá nghiêm túc với in 3D
  Dù trước đó không có kinh nghiệm về in 3D, tôi chỉ mất khoảng hai tháng để nhận ra những điều báo chí nói là nhảm nhí. Về mặt kỹ thuật, công nghệ này hoàn toàn chưa ở gần mức mà một số bài viết tuyên bố, chẳng hạn như tự in ra một chiếc xe; còn về mặt kinh doanh, số điểm được cải thiện nhờ dùng in 3D thay cho sản xuất hiện có ít đến mức đáng ngạc nhiên
  Tôi không có ý phủ nhận quá mức. In 3D rất tuyệt và có nhiều ứng dụng thực tế. Vấn đề là truyền thông xung quanh nó đã thổi phồng quá mức
  Hầu hết những người thật sự hiểu về in 3D đều biết rằng báo chí, nói nhẹ thì, quá nhiệt tình. Và nhiều năm sau, những tầm nhìn lớn lao đó vẫn chưa thành hiện thực
  Ngược lại, AI có hai khác biệt lớn. Thứ nhất, nó đã được chứng minh là cực kỳ hữu ích và đã tạo ra tác động gấp 100 lần so với in 3D. Chỉ cần nghĩ xem lần gần nhất có một sản phẩm về cơ bản mới ra mắt khoảng 4 năm trước mà đạt mức thâm nhập thị trường đáng kinh ngạc như vậy là khi nào. ChatGPT đúng là sản phẩm tăng trưởng nhanh nhất lịch sử nếu tính theo số người dùng
  Thứ hai, những người trong ngành nhìn chung cực kỳ hào hứng với công nghệ này, cho rằng nó có thể tốt hơn rất nhiều và tiềm năng hiện tại vẫn chưa được khai thác đầy đủ. Tôi chắc chắn cũng nghĩ theo hướng đó
Từ góc nhìn lý thuyết thông tin thì nghe hơi ngoài dự đoán. Trong toàn bộ biểu diễn 32-bit của mô hình, có vẻ như tri thức này đã bị loại bỏ, nhưng khi nén xuống 4-bit thì tri thức đó lại xuất hiện
Vậy nên tôi tò mò thực ra thông tin nào đã biến mất trong bước nén/lượng tử hóa
- Giải thích bài báo này một cách dễ hiểu thì phần lớn các phương pháp “quên” có thể được xem là cộng một delta w nào đó vào các tham số của mạng nơ-ron, và phần lớn w đó trong quá trình lượng tử hóa đơn giản là bị “làm tròn cho biến mất”. Tức là quantize(X+w) ~= quantize(X)
  Đây là một ý tưởng khá khéo, ở chỗ nhiều phương pháp được trích dẫn tối ưu hóa/chính quy hóa một cách tường minh để giữ w nhỏ, nhằm tránh làm giảm độ chính xác đánh giá
  Vì vậy nảy sinh câu hỏi liệu các phương pháp như vậy, xét từ góc nhìn lý thuyết thông tin, có thật sự có thể gọi là quên hay chỉ giống như bọc if (false) quanh tri thức tiềm ẩn
- Có lẽ thứ bị loại bỏ trong phiên bản 32-bit không phải là bản thân tri thức, mà là biểu diễn của tri thức. Và có thể một phần không gian đã được cấp phát để lưu thông tin rằng không được nói về một chủ đề nhất định
  Ví dụ con người cũng biết nhiều cách nói miệt thị chủng tộc, nhưng cũng biết rằng không được truy cập hay sử dụng tri thức đó
  Nhưng nếu một người hay một mô hình AI bị va đập vào đầu, hoặc trải qua thứ gì đó như lượng tử hóa, tri thức về X có thể vẫn còn, còn tri thức rằng không được nói về X thì biến mất. Nhìn như vậy thì khá trực quan
- Có khả năng tri thức không biến mất mà chỉ bị che đi
  Nếu xem mạng nơ-ron như mã nguồn, thì trọng số chính là mã nguồn. Tinh chỉnh có thể thực chất là một cách hack để đoạn mã đó không trả về một đầu ra nhất định
  Thực tế, tinh chỉnh ở một mức nào đó cũng gần giống như vậy
  Vì thế có thể chỉ là đã dựng một tường lửa quanh một đầu ra cụ thể. Nhưng khi lượng tử hóa, chỉnh sửa mới gần đây đó có thể biến mất. Nó quá tinh vi nên không sống sót được
  Ngược lại, việc lượng tử hóa không phá hủy mọi tri thức là điều các mô hình lượng tử hóa phổ biến đã cho thấy
  Nhân tiện, nếu @simonw có bật thông báo, chủ đề này trông rất hợp để viết thành một bài
- Tri thức không bị xóa, chỉ là vì các trọng số mà nó tuyệt đối không được dùng tới
  Lượng tử hóa làm thay đổi phép tính, và giờ tri thức đó trở nên có thể truy cập được
- Thật ra điều này không đáng ngạc nhiên
  Số dấu phẩy động luôn có cảm giác là một cách kỳ lạ để biểu diễn ngôn ngữ. Nếu phóng to chỉ một biến, liệu có một tập hợp ý nghĩa kiểu như https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... nằm trên một độ dốc nào đó, nhưng mỗi khoảng lại được gán ý nghĩa đặc biệt không? Có thể hình dung các mạch nơ-ron được thiết kế cẩn thận để giải mã loại biến như vậy, và cũng có thể hình dung cách tạo ra một mạng có cấu trúc như thế, nhưng việc mạng nơ-ron học được cấu trúc đó thì không trực quan. Tôi có thể tin một thang đo đi từ “tốt” đến “xấu”, nhưng khó tin rằng vô số ý nghĩa cụ thể lại được gắn với từng giá trị khác nhau
  Nghĩ như vậy thì một dạng mạng nơ-ron nhị phân nào đó có vẻ sẽ rất hiệu quả, nhưng trên thực tế dường như không phải vậy. Tuy nhiên, có vẻ mạng nơ-ron bên trong không dùng nhiều độ chính xác vượt quá khoảng 4-bit
  Các hệ thống “quên” kiểu này có lẽ không thật sự xóa “engram” của ký ức trong mạng, mà gần với việc học một hành vi mới nhằm ức chế các đầu ra nhất định. Nó không khác nhiều so với bài toán bổ sung dần tri thức mới vào mạng, chỉ là thứ học ở bước 2 khá khác với học thông thường. Nếu không muốn làm hỏng mạng, ta có thể hình dung việc thêm một bit độ chính xác để bổ sung hành vi mới. Ở độ chính xác thấp thì giữ hành vi cũ, còn ở độ chính xác cao thì tạo các phân biệt quan trọng cho hành vi “đã quên/đã học”
Giả thuyết cốt lõi là để đạt được việc quên mà không làm tổn hại tính hữu dụng của mô hình, các phương pháp hiện có thường dùng tốc độ học nhỏ và chính quy hóa trên tập giữ lại, khiến thay đổi trọng số mô hình trong quá trình quên được tối thiểu hóa
Kết quả là trọng số của LLM mục tiêu và LLM đã quên trở nên rất gần nhau
Nếu vậy, có lẽ cần ngăn không cho học nội dung không mong muốn ngay từ giai đoạn huấn luyện nền tảng, hoặc khiến quá trình quên của mô hình nền tảng nhận biết được lượng tử hóa
Tôi hoàn toàn không phải chuyên gia trong lĩnh vực này nên có thể là một câu hỏi ngớ ngẩn. Nếu lượng tử hóa llama3 xuống 4-bit, có nghĩa là có thể truy cập thông tin ẩn như cách tổng hợp một hợp chất cụ thể chẳng hạn không? Tất nhiên chất lượng sẽ giảm
- Tôi cũng thắc mắc chính xác điều đó. Quên = guardrail à? Nghe như thể chỉ chỉnh trọng số rất nhẹ để nó tự kiểm duyệt, nhưng chỉnh sửa đó quá vi tế nên không sống sót ở độ phân giải thấp
  Nhưng nếu việc vượt guardrail dễ như vậy thì có lẽ ta đã nghe nói rồi
- Chỉ có thể nếu “cách tổng hợp một hợp chất cụ thể” vốn đã có sẵn trong mô hình ban đầu
Đoạn “bất chấp hiệu quả của các phương pháp quên hiện nay, rất ít sự chú ý được dành cho việc liệu các phương pháp quên LLM hiện có có đạt được sự quên thật sự hay chỉ che giấu tri thức” là một câu hỏi hay
Trong ngữ cảnh LLM, và cả trong ngữ cảnh triết học về tri thức nói chung, cần xem xét quên và nhớ là gì, liệu LLM có thể “quên” thứ nó đã “học” hay không, và nếu có thì về mặt toán học/tính toán điều đó chính xác nghĩa là gì
Tôi cũng tò mò liệu LLM có thể tự dạy lại cho mình những thứ từng bị quên trước đây thông qua quá trình logic, hàm ý, suy diễn, quy nạp, diễn dịch từ tri thức sẵn có hay không
Nếu có thể, phần lõi nhỏ nhất của một LLM có khả năng làm điều đó là gì, và vì sao, cũng là một câu hỏi
Đây có lẽ sẽ không phải bài báo đầu tiên hay cuối cùng về chủ đề này
Tôi đang dùng LLM lượng tử hóa trong môi trường vận hành, nhưng chưa từng cảm thấy mô hình ít bị kiểm duyệt hơn
Đối với việc quên các hành vi được củng cố, kỹ thuật abliteration [1] có vẻ mạnh hơn nhiều
1 https://huggingface.co/blog/mlabonne/abliteration
- Có phải cụ thể là bạn đã dùng mô hình được làm quên bằng gradient ascent không?
Vấn đề của các mô hình hiện nay không nằm ở việc học, mà ở chỗ chúng bị nhồi sọ kiểu học vẹt
Giai đoạn học thiếu tư duy phản biện
- Nhân cách hóa LLM vừa không đúng về mặt kỹ thuật vừa không hữu ích lắm
- Nếu không thì bạn định kiểm duyệt LLM bằng cách nào? Bạn thật sự muốn LLM có thể phát ngôn tự do à?
Thậm chí không cần dùng lượng tử hóa. Phần lớn benchmark có thể bị phá chỉ bằng prompt
https://arxiv.org/abs/2410.02879

Một cách tiếp cận đơn giản đến ngỡ ngàng để khôi phục tri thức đã bị lãng quên trong LLM

Unlearning là xóa tri thức hay chỉ che giấu nó

Các phương pháp unlearning hiện có để bảo toàn utility

Kết quả thực nghiệm: lượng tử hóa làm sống lại tri thức đã quên

Điểm yếu do thay đổi trọng số nhỏ tạo ra

Chiến lược giảm thiểu và những giới hạn còn lại

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News