Mô hình ngôn ngữ lớn tự thích ứng (Self-Adapting)

(arxiv.org)

3 điểm bởi GN⁺ 2025-06-15 | 1 bình luận | Chia sẻ qua WhatsApp

Các LLM hiện nay thường giữ nguyên trọng số ngay cả khi nhận kiến thức hoặc tác vụ mới; SEAL đề xuất một khung tự thích ứng trong đó mô hình tự tạo dữ liệu và quy trình học rồi cập nhật chính mình
Đơn vị cốt lõi self-edit tái cấu trúc thông tin, xác định các siêu tham số tối ưu hóa, đồng thời bao gồm cả tăng cường dữ liệu và lời gọi công cụ để cập nhật dựa trên gradient
SEAL học chính sách tạo self-edit hiệu quả hơn thông qua vòng lặp học tăng cường, lấy hiệu năng downstream của mô hình đã cập nhật làm phần thưởng
Trong thí nghiệm tích hợp tri thức, sau khi tinh chỉnh bằng dữ liệu tổng hợp tự sinh, hiệu năng SQuAD no-passage-in-context tăng từ 33,5% lên 47,0%, cao hơn dữ liệu tổng hợp do GPT-4.1 tạo ra
Trong học few-shot trên một tập con ARC-AGI giản lược, hệ thống cũng tự động chọn tăng cường dữ liệu, learning rate, epoch và cách tính loss theo từng token type, cho kết quả tốt hơn ICL tiêu chuẩn và self-editing không có RL

Cách tự cập nhật LLM tĩnh

Các LLM hiện nay tuy mạnh nhưng có tính tĩnh (static), không có cơ chế thích ứng trọng số theo tác vụ, kiến thức hoặc ví dụ mới
SEAL (Self-Adapting LLMs) được thiết kế để khi nhận đầu vào mới, mô hình tự thay đổi dữ liệu học và quy trình học nhằm tự thích ứng
Sản phẩm sinh ra cốt lõi là self-edit
- Có thể tái cấu trúc thông tin sang định dạng khác
- Có thể chỉ định các siêu tham số tối ưu hóa
- Có thể gọi công cụ để tăng cường dữ liệu và cập nhật dựa trên gradient
self-edit dẫn tới cập nhật liên tục trọng số mô hình thông qua supervised fine-tuning (SFT)
Website và mã nguồn có tại https://jyopari.github.io/posts/seal

Khác biệt so với các cách thích ứng hiện có

Khi nhận tác vụ mới, các LLM hiện nay thường tiêu thụ dữ liệu tác vụ nguyên trạng (as-is) thông qua fine-tuning hoặc in-context learning
Dữ liệu đầu vào có thể không ở định dạng hoặc quy mô tối ưu cho việc học, nhưng các cách tiếp cận hiện có không khiến mô hình tự phát triển chiến lược về cách biến đổi và tiếp thu dữ liệu
SEAL không dựa vào một mô-đun thích ứng riêng hay mạng phụ trợ, mà tham số hóa và kiểm soát quá trình thích ứng bằng chính kết quả sinh ra của mô hình
Tương tự cách học sinh con người học bằng cách diễn giải lại và tái cấu trúc tài liệu gốc thành ghi chú, thay vì chỉ học thuộc nguyên xi
- Mỗi người đồng hóa thông tin theo những cách khác nhau, như sơ đồ trực quan, văn bản, hay diễn giải toán học
- SEAL là nỗ lực đưa quá trình tái cấu trúc và viết lại này vào quy trình học của LLM

Học chính sách self-edit bằng học tăng cường

SEAL huấn luyện LLM tạo self-edit hiệu quả bằng thuật toán học tăng cường
Mỗi outer loop iteration của học tăng cường diễn ra theo luồng sau
- Mô hình tạo các self-edit ứng viên
- Áp dụng cập nhật trọng số theo self-edit
- Đánh giá mô hình đã cập nhật trên tác vụ downstream
- Cải thiện chính sách tạo self-edit bằng phần thưởng thu được từ kết quả đánh giá
Tín hiệu phần thưởng là hiệu năng downstream của mô hình đã cập nhật

Kết quả thí nghiệm: tích hợp tri thức

Thí nghiệm tích hợp tri thức xử lý bài toán đưa kiến thức sự thật mới vào LLM
Thay vì fine-tuning trực tiếp trên passage text, mô hình được fine-tuning bằng dữ liệu tổng hợp do mô hình SEAL tạo ra
Sau khi huấn luyện bằng học tăng cường, dữ liệu tổng hợp tự sinh của SEAL nâng hiệu năng hỏi đáp SQuAD no-passage-in-context từ 33,5% lên 47,0%
Dữ liệu tự sinh của SEAL đạt hiệu năng cao hơn dữ liệu tổng hợp do GPT-4.1 tạo ra

Kết quả thí nghiệm: khái quát hóa few-shot ARC-AGI

Đánh giá thứ hai thực hiện few-shot learning trên một tập con benchmark ARC-AGI giản lược
Mô hình dùng một bộ công cụ để tự chủ chọn tăng cường dữ liệu tổng hợp và các siêu tham số tối ưu hóa
Các mục được tự động chọn bao gồm
- Learning rate
- Training epochs
- Tính loss có chọn lọc theo từng token type
Việc tự động chọn và cấu hình công cụ thông qua SEAL giúp cải thiện hiệu năng so với in-context learning (ICL) tiêu chuẩn và self-editing không có RL, vốn không học cách sử dụng công cụ hiệu quả
Hai thí nghiệm cho thấy SEAL có thể trở thành một khung giúp mô hình ngôn ngữ tự chủ thích ứng với dữ liệu mới

1 bình luận

GN⁺ 2025-06-15

Ý kiến trên Hacker News

Cách tiếp cận self-edit rất khéo ở chỗ tối ưu bằng học tăng cường phương thức mô hình tái cấu trúc thông tin cho phù hợp với việc tự học của chính nó
Điểm cốt lõi là mỗi loại tri thức lại phù hợp hơn với một kiểu biểu diễn khác nhau, khá giống việc con người ghi chép khác nhau khi học toán và lịch sử
Trong dữ liệu GPT-4.1, kết quả tích hợp tri thức đạt 47% so với 46,3%, cao hơn nhiều so với mô hình cơ sở nhỏ, nên có vẻ không chỉ đơn giản là có thêm dữ liệu mà là đã tìm ra một định dạng học tốt hơn
Tuy vậy, quên thảm họa vẫn chưa được giải quyết, và cũng chưa hoàn toàn rõ liệu tính đa dạng dữ liệu có thực sự được cải thiện hay không
Chi phí tính toán 30–45 giây cho mỗi lần đánh giá phần thưởng là quá nặng với đa số trường hợp sử dụng, nhưng có thể đáng giá nếu áp dụng vào xử lý tài liệu giá trị cao, nơi việc bảo toàn tối ưu thực sự quan trọng
Hạn chế lớn nhất là nó bị giới hạn ở các tác vụ có thước đo đánh giá tường minh, vì để tính phần thưởng cần có các cặp hỏi đáp đúng hoặc test case
Dù vậy, trong các lĩnh vực có thể tạo ra tiêu chí đánh giá như tài liệu kỹ thuật hay nội dung giáo dục, nó có thể cải thiện đáng kể cách xử lý thông tin mới, và dù vẫn chưa đến mức “tác nhân tự cải thiện liên tục”, đây vẫn giống như một bước quan trọng theo hướng mô hình tự điều chỉnh chiến lược học của mình
Từ giữa thập niên 2010, hai người bạn cực kỳ giỏi toán của tôi, những người làm machine learning từ rất sớm, thường nhắc đến thuật toán NEAT/HyperNEAT nghe khá giống với hướng này
“NEAT/HyperNEAT” (Neuroevolution of Augmented Topologies) [0]
Tôi không phải chuyên gia machine learning, nhưng theo cách tôi hiểu thì NEAT tiến hóa cấu trúc topo của mạng, còn bài báo này dường như tiến hóa các trọng số
Rốt cuộc, có vẻ đây là hai cách tiếp cận giải cùng một bài toán, một bên tiến hóa cấu trúc mạng, bên kia tiến hóa trọng số
Hai người đó thuộc nhóm thông minh nhất mà tôi từng gặp, và họ khá tin rằng học tăng cường cùng các thuật toán tiến hóa là con đường phía trước của machine learning
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- Con người thật đáng kinh ngạc. Chúng ta tạo ra các hệ thống tính toán giả tưởng để cố hiểu neuron, rồi phát hiện ra neuron thật không hoạt động như vậy, nhưng dù sao vẫn xây được công nghệ làm thay đổi mô thức trên nền đó
  Và chúng ta vẫn tiếp tục củng cố công nghệ bằng các ý tưởng sinh ra từ hệ thống tưởng tượng ấy
- Tài liệu nhập môn NEAT tôi thích nhất là MarI/O - Machine Learning for Video Games của SethBling
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- Gần đây tôi hoàn toàn bị cuốn vào ý tưởng này. Sau khi phần nào thành công với voice cloning cho Kokoro bằng thuật toán di truyền, tôi bắt đầu tự hỏi liệu có thể tiến hóa chính kiến trúc hay không
  Ý tưởng về trí tuệ tự lắp ráp cực kỳ hấp dẫn, nhưng tôi vẫn nghi ngờ không biết làm sao để nó trở nên khả thi
  Nhìn vào cách LLM đã phát triển đến hiện tại, có lẽ kiểu tiếp cận lai như vậy lại là tốt nhất
Anthropic cũng vừa có một bài báo về self finetuning cách đây vài ngày
https://arxiv.org/html/2506.10139v1
- Cái này rất ghê
  “Khi được đánh giá bằng mô hình phần thưởng cấp production của Claude 3.5 Sonnet, policy phụ trợ không giám sát đã thắng 60% trong đối đầu trực diện với policy được huấn luyện bằng mô hình phần thưởng có giám sát bởi con người”
  Giờ thì mô hình dường như còn có thể hậu huấn luyện cho các mô hình mới tốt hơn cả con người
- Có một thread đang thảo luận tiếp về chủ đề liên quan
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
Tôi muốn ai đó hiểu rõ nghiên cứu về việc để LLM học “trong lúc làm việc” hiện đã tiến đến đâu, và đâu là những nút thắt khiến nó chưa thành thứ có thể triển khai thực tế
Ví dụ, khi tạo một mô hình + coding agent thực sự học codebase theo thời gian bằng các phương thức như finetune liên tục, tôi muốn biết vấn đề nằm ở chi phí, sụp đổ mô hình, hay yếu tố nào khác
Chắc chắn các phòng nghiên cứu lớn đang thử việc này, nhưng từ góc nhìn người dùng LLM thì chủ đề ấy không được nhắc đến nhiều, và hiện tại có cảm giác trọng tâm đang là cải thiện việc học, chẳng hạn như học tăng cường
Dường như cũng có giả định ngầm rằng những gì mô hình không học được trong lúc huấn luyện thì có thể nhét vào ngữ cảnh khi cần
Từ góc nhìn ngây thơ, việc không thể học từ kinh nghiệm sau huấn luyện có vẻ là trở ngại lớn nhất trên con đường tới AGI
- Chúng ta hoàn toàn không biết phải làm học liên tục như thế nào
  Những chuyện như chi phí tính toán, sụp đổ, hay quên thì đều đúng, nhưng cách duy nhất “thật sự” khả thi là huấn luyện mô hình, nhận dữ liệu mới, huấn luyện lại toàn bộ mô hình với cả dữ liệu cũ lẫn mới, rồi lặp lại
  Mà ngay cả vậy cũng không có đảm bảo nào về mặt “thời gian”
  Lĩnh vực học liên tục gần như không có câu trả lời đúng nghĩa cho chuyện này, và các giải pháp đều tự mâu thuẫn ở nhiều khía cạnh nên khó đến phát điên
  Ta cần mở rộng không gian biểu diễn của mô hình trong khi gần như giữ nguyên không gian biểu diễn trước đó, tức là phải thay đổi mà lại không được thay đổi
  Điều khó chịu nhất là ngay cả một bộ não sinh học rất nhỏ cũng làm việc này dễ dàng
  Tôi có cả một lý thuyết dài về chuyện đó, nhưng tóm lại thì AI cũng có lẽ cần một dạng ngủ hoặc nghỉ ngơi nào đó
- Tôi không phải chuyên gia, nhưng tôi nghĩ quyền riêng tư đóng vai trò lớn, hoặc ít nhất là nên như vậy
  Vì chi phí tính toán, bất kỳ kiểu học nào cũng sẽ phải là dạng tổng hợp chứ không thể theo từng người dùng, nhưng như vậy nguy cơ rò rỉ thông tin giữa các phiên sẽ rất lớn
  Tôi hoàn toàn đồng ý rằng tìm ra cách học liên tục an toàn có lẽ là trở ngại lớn nhất của AGI
- Câu trả lời thật sự là chúng ta chưa thể tin đủ vào đánh giá tự động
  Ngay cả khi điểm đánh giá tăng, vẫn khó chắc chắn rằng một bản phát hành cụ thể được học tự động thực sự cải thiện hiệu năng ngoài đời, nên hiện giờ mọi người vẫn gộp các bản cập nhật lại rồi kiểm tra cảm quan trước khi triển khai
- Vấn đề rõ ràng nhất là alignment
  Người ta đã biết rằng chỉ finetune LLM thôi cũng có thể làm mất alignment, nên bất kỳ dạng finetune liên tục nào về lý thuyết cũng có thể phá hỏng alignment theo cách tương tự
- Trở ngại nổi bật nhất là quên thảm họa
Nhìn qua thì có vẻ đây chỉ là một framework tinh chỉnh adapter LoRA rồi hợp nhất vào mô hình gốc
Nó dùng PeftModel của thư viện HuggingFace và merge_and_unload để hợp nhất adapter vào mô hình nền, nên tôi không rõ chính xác điểm mới là gì
- Phần có vẻ mới có thể nằm ở tính ổn định của cách tiếp cận, ở việc tránh chi phí căn chỉnh và sự sụp đổ của mô hình
  Tôi muốn thấy một chu trình đầy đủ của hypernetwork, trong đó hai mô hình liên tục được cập nhật bằng LoRA được tạo ra, và hypernetwork cũng được cập nhật theo trạng thái mô hình mới
  Nếu áp dụng LoRA cho hypernetwork thì sẽ cần một meta-hypernetwork, và khi đó về thực chất có thể sẽ khả thi cho học liên tục
Đoạn “mô hình ngôn ngữ lớn mạnh mẽ nhưng tĩnh, và không có cơ chế điều chỉnh trọng số để thích ứng với tác vụ mới” mới là cốt lõi
Quá trình huấn luyện và suy luận bị tách biệt hoàn toàn, nên điều này rất dễ gây bối rối với những người quen với quan niệm truyền thống về trí thông minh của con người
Với con người, việc học một điều gì đó và áp dụng kiến thức đó vào thực tế là một quá trình phản hồi tích hợp duy nhất, nhưng LLM thì không như vậy
Chúng ta huấn luyện, triển khai, rồi thay thế bằng một mô hình mới “đã học” thêm một chút
Với LLM, suy luận là điểm kết thúc của việc học
Có lẽ đây là chỗ phát sinh hiểu lầm lớn nhất về AI
Nếu nghĩ rằng LLM đang học, người ta rất dễ tưởng tượng AGI đã ở ngay trước mắt
- Như DeepSeek đã cho thấy, có thể tinh chỉnh LLM bằng học tăng cường
- Nếu kiểm tra xem người dùng phản hồi tích cực hay tiêu cực với đầu ra, rồi dùng đầu vào mà mô hình nhận được và đầu ra mà nó tạo ra để huấn luyện LLM thì sao?
Website có mã nguồn và ví dụ: https://jyopari.github.io/posts/seal
Trong lĩnh vực này, có vẻ vấn đề quên đúng cách đang nhanh chóng trở nên quan trọng hơn cả “học đúng cách”
Đã có tiến bộ lớn trong việc để mô hình tự dạy cho chính nó các sự thật mới, nhưng công nghệ tiên tiến nhất để loại bỏ thông tin ít liên quan nhất khi có kiến thức mới và dung lượng hữu hạn thì vẫn tụt lại rất xa
Phần lớn bộ não con người rất giỏi “quên đúng cách”, và tôi tò mò không biết điều đó hoạt động như thế nào
- Tôi không cho rằng con người thực sự giỏi quên đúng cách đến vậy
  Thành thật mà nói, tôi cũng không chắc bộ não con người “xuất sắc vượt trội” trong nhiều việc mà chúng ta làm
  Dung lượng bộ nhớ của não người quá lớn, nên phần lớn việc quên có lẽ không phải để dọn chỗ cho thông tin mới mà gần hơn với việc bộ não biết đúng rằng thông tin xấu trong quá khứ đang cản trở việc học mới
- Theo những gì tôi biết, hầu như chưa có tiến bộ nào trong việc xác định trọng số nào trong mạng nơ-ron nhân tạo chịu trách nhiệm ở mức nào cho đầu ra nào
  Vì thế không thể loại bỏ những thông tin mà người dùng đánh dấu là sai, không chính xác hoặc không mong muốn
  Trong khi đó tâm trí con người làm điều này rất dễ dàng
  Nó ghi nhớ rằng thứ gì đó là sai, vô ích, không liên quan và không làm lại nữa, rồi theo thời gian có thể quên luôn chính con đường ít được dùng tới đó
  Ít nhất thì trong mạng nơ-ron nhân tạo không có cơ chế hiển nhiên như vậy
- Việc học có liên hệ rất mạnh với lặp lại ngắt quãng
  Thường nó được gắn với các công cụ học như Anki, nhưng thế giới thực đầy rẫy những thứ ta gặp lại theo một tần suất nhất định
  Chu kỳ ngày và đêm, các mùa, những nơi ta ghé qua, những người ta gặp — về cơ bản hầu như mọi thứ đều như vậy
  Có lẽ cũng tồn tại một thứ gì đó như phiên bản đảo ngược của lặp lại ngắt quãng
- Tôi từng thấy một nghiên cứu thú vị nói rằng LLM cũng “che giấu” dữ liệu nội bộ
  Nó không chỉ đơn giản là quên; nếu tiếp tục huấn luyện thì thông tin đó có thể xuất hiện trở lại sau này
  Vì vậy khi huấn luyện mô hình, không nên chỉ nhìn vào một phần nhỏ mà phải kiểm tra toàn bộ ký ức
- Có phải kiểu như phương thức ít được dùng gần đây nhất không?
  Tôi đang thử nghiệm ngay trong đầu mình để tìm hiểu đây :D
  Đây là một trong những lý do tôi thích lĩnh vực khoa học máy tính này
Đoạn “Villalobos et al. [75] dự đoán rằng các LLM tiên phong sẽ được huấn luyện trên toàn bộ văn bản do con người tạo ra có thể dùng công khai vào năm 2028” thật sự gây ấn tượng
Bài báo cho rằng do rào cản dữ liệu đang đến gần, sẽ cần áp dụng tăng cường dữ liệu tổng hợp, và khi kho ngữ liệu quy mô web cạn kiệt, tiến bộ của mô hình sẽ phụ thuộc vào khả năng tự tạo ra tín hiệu huấn luyện hữu ích
Bước tiếp theo tự nhiên là meta-học một mô hình tạo dữ liệu tổng hợp SEAL chuyên dụng để tạo ra kho ngữ liệu tiền huấn luyện mới, từ đó giúp các mô hình tương lai mở rộng tốt hơn và hiệu quả dữ liệu hơn mà không phụ thuộc vào thêm văn bản do con người viết
2028 thực chất đã gần như là ngày mai, và đây là một góc nhìn thú vị
- Đó chỉ là lý thuyết
  Một bộ não người đơn lẻ còn phức tạp hơn nhiều so với toàn bộ web xét về số lượng nút và kết nối
  Chúng ta thậm chí còn chưa hiểu bộ não đủ để giải thích suy nghĩ hình thành như thế nào
  Chúng ta cũng chưa hiểu đầy đủ toàn bộ quá trình bộ não tạo ra đầu ra rồi đưa nó lên web
  Dự đoán rằng sau khi dữ liệu quy mô web cạn kiệt, mô hình sẽ có thể tự tạo ra dữ liệu huấn luyện hữu ích chỉ là phỏng đoán
  Dữ liệu huấn luyện như vậy có thể không bao giờ đạt tới chất lượng của tư duy con người, mà chỉ lặp đi lặp lại chính nó và hoàn toàn không thúc đẩy việc học hay chất lượng mô hình
  Gọi đó là “góc nhìn sâu sắc” thì hơi lạc quan một chút
- Điều đó gần như đã là hiện trạng rồi
  Các LLM tiên phong đã được huấn luyện trên gần như toàn bộ văn bản do con người tạo ra có thể dùng công khai, và cũng đã được huấn luyện rất nhiều bằng dữ liệu tổng hợp để cải thiện các tác vụ có thể kiểm chứng như lập trình

Mô hình ngôn ngữ lớn tự thích ứng (Self-Adapting)

Cách tự cập nhật LLM tĩnh

Khác biệt so với các cách thích ứng hiện có

Học chính sách self-edit bằng học tăng cường

Kết quả thí nghiệm: tích hợp tri thức

Kết quả thí nghiệm: khái quát hóa few-shot ARC-AGI

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News