- Các mô hình ngôn ngữ lớn (LLM) hiện có thiếu khả năng thích nghi tức thời với tác vụ hoặc tri thức mới
- Khung SEAL mới cho phép LLM tự tạo dữ liệu fine-tuning và chỉ dẫn cập nhật của chính mình để có khả năng tự thích nghi
- Quá trình này bao gồm việc tạo self-edit, thực thi chỉ dẫn, và cải thiện hiệu năng liên tục thông qua vòng lặp học tăng cường (based on RL)
- SEAL chứng minh hiệu năng tốt hơn các phương pháp hiện có trong các thí nghiệm về tích hợp tri thức mới và khái quát hóa few-shot
- Nghiên cứu này cho thấy một bước tiến đầy hứa hẹn hướng tới việc hiện thực hóa LLM có khả năng thích nghi tự chỉ dẫn
Tổng quan
- Mô hình ngôn ngữ lớn (LLM) cho thấy hiệu năng mạnh mẽ, nhưng thiếu cơ chế điều chỉnh trọng số của chính mình một cách động theo tác vụ, thông tin và ví dụ mới
- Bài báo này đề xuất khung Self-Adapting LLM (SEAL), cho phép LLM tự tạo dữ liệu để fine-tuning và xây dựng chỉ dẫn cập nhật
- Khi nhận đầu vào mới, SEAL tạo ra các self-edit như tái cấu trúc thông tin theo nhiều cách khác nhau, chỉ định hyperparameter tối ưu hóa, hoặc gọi công cụ để tăng cường dữ liệu và cập nhật dựa trên gradient
- Các self-edit này dẫn đến các cập nhật lâu dài lên trọng số của mô hình thông qua quá trình supervised fine-tuning (SFT), bảo đảm khả năng thích nghi liên tục
- Để tạo self-edit hiệu quả, hệ thống sử dụng vòng lặp học tăng cường và dùng hiệu năng downstream sau khi cập nhật mô hình làm tín hiệu phần thưởng
Phép loại suy với học tập của con người
- Lấy cảm hứng từ cách học của học sinh khi chuẩn bị cho kỳ thi bằng cách viết lại thông tin từ bài giảng, sách giáo khoa, Internet... thành ghi chú theo cách riêng của mình
- Mỗi người có cách tái cấu trúc thông tin khác nhau: có người dùng sơ đồ, có người dùng văn bản, có người dùng công thức để tóm tắt
- Điều này cho thấy việc tự tổ chức lại hoặc bổ sung tri thức bên ngoài theo cách dễ hiểu hơn cho bản thân là một đặc điểm phổ biến trong học tập của con người
- Các LLM hiện có khi được giao tác vụ mới thường chỉ fine-tuning trực tiếp trên dataset đã cho hoặc chỉ thực hiện in-context learning
- Tuy nhiên, cách tiếp cận này có hạn chế vì định dạng và lượng dữ liệu có thể không được tối ưu cho việc học
SEAL: Đề xuất khung tự thích nghi
- SEAL được huấn luyện bằng thuật toán học tăng cường để LLM tự sinh dữ liệu huấn luyện và chỉ dẫn fine-tuning bằng ngôn ngữ tự nhiên
- Ở đây, self-edit là dạng mệnh lệnh chỉ định dữ liệu và (tùy chọn) hyperparameter tối ưu hóa
- Điểm đặc trưng của SEAL là không cần mô-đun bổ sung hay mạng phụ trợ riêng biệt, mà trực tiếp điều khiển quá trình thích nghi của chính nó chỉ bằng khả năng sinh ngôn ngữ tự nhiên của mô hình
Cách SEAL hoạt động
- Trong mỗi vòng lặp ngoài (iteration) của học tăng cường (RL), mô hình tạo ra các self-edit ứng viên
- Áp dụng các self-edit đã tạo để cập nhật trọng số
- Sau đó đánh giá hiệu năng của mô hình trên tác vụ downstream để thu được tín hiệu phần thưởng từ kết quả đó
- Dùng tín hiệu phần thưởng để lặp đi lặp lại việc cải thiện chính sách sinh self-edit
Thí nghiệm và kết quả
- Trong tác vụ tích hợp tri thức, SEAL thực hiện fine-tuning bằng dữ liệu tổng hợp (synthetic) do chính mô hình tạo ra
- Trên phiên bản no-passage-in-context của SQuAD, hiệu năng hỏi-đáp tăng mạnh từ 33.5% trước huấn luyện RL lên 47.0% sau huấn luyện RL
- Dữ liệu do SEAL tạo ra còn cho hiệu năng tốt hơn dữ liệu tổng hợp do GPT-4.1 tạo
- Trong thí nghiệm học few-shot, nghiên cứu sử dụng phiên bản đơn giản hóa của benchmark ARC-AGI, trong đó SEAL tự chọn dữ liệu tăng cường và hyperparameter tối ưu hóa
- Tự động chọn nhiều tổ hợp công cụ như learning rate, số epoch, tính toán loss có chọn lọc theo từng loại token
- Việc dùng SEAL có áp dụng học tăng cường giúp cải thiện hiệu năng, hiệu quả hơn so với chỉ in-context learning hoặc chỉ dùng công cụ mà không có RL
Kết luận
- Khung SEAL chứng minh bằng thực nghiệm rằng LLM có thể tự thích nghi thông qua dữ liệu và chỉ dẫn do chính nó tạo ra
- Cách tiếp cận này gợi mở một bước tiến quan trọng cho việc phát triển thế hệ mô hình ngôn ngữ tiếp theo với hiệu quả dữ liệu, khả năng thích nghi và tính tổng quát trong tương lai
1 bình luận
Ý kiến Hacker News
Khi hai người bạn thiên tài toán học của tôi dấn thân vào ML từ rất sớm, vào giữa thập niên 2010, họ thường kể cho tôi nghe về thuật toán NEAT/HyperNEAT (Neuroevolution of Augmented Topologies) [liên kết Wikipedia về NEAT]. Tôi không phải chuyên gia ML nên không nắm thật chính xác, nhưng tôi hiểu rằng điểm khác biệt là NEAT tiến hóa topology của mạng, còn bài báo này thì tiến hóa các trọng số. Về cơ bản, tôi nghĩ đây là hai cách tiếp cận khác nhau để giải cùng một vấn đề: thay đổi cấu trúc mạng và thay đổi trọng số. Hai người bạn đó dường như tin rất chắc rằng tương lai của trí tuệ nhân tạo nằm ở RL (học tăng cường) và các thuật toán tiến hóa.
Có một video nhập môn về NEAT mà tôi thích nhất: SethBling no MarI/O - Machine Learning for Video Games [liên kết YouTube]
Tôi thấy con người thật đáng kinh ngạc. Chúng ta tạo ra một hệ thống tính toán giả tưởng để cố hiểu tế bào thần kinh, rồi nhận ra thực tế nó không vận hành như vậy, nhưng vẫn lấy ý tưởng từ hệ thống tưởng tượng đó để tạo ra công nghệ đột phá. Và đến giờ chúng ta vẫn tiếp tục phát triển nhờ cảm hứng từ hệ thống tưởng tượng ấy.
Gần đây tôi hoàn toàn bị cuốn vào khái niệm NEAT/dựa trên tiến hóa này. Sau khi dùng thuật toán di truyền cho dự án nhân bản giọng nói Kokoro và đạt được chút thành công, tôi bắt đầu tự hỏi liệu có thể tiến hóa chính cấu trúc mạng để tạo ra “trí tuệ tự lắp ráp” hay không. Tôi tò mò không biết cần làm gì để điều này trở nên khả thi trong thực tế, và khi nhìn cách LLM xuất hiện như hiện nay, tôi nghĩ có lẽ một cách tiếp cận lai là lựa chọn thực tế.
Tôi nghĩ cách tiếp cận
self-edit, trong đó mô hình tự tái cấu trúc thông tin để tăng hiệu quả học bằng RL, là cực kỳ thông minh. Ý tưởng cốt lõi là những loại tri thức khác nhau sẽ phù hợp với các dạng biểu diễn khác nhau hơn (giống như cách ghi chép cho toán và lịch sử là khác nhau). Có hai quan sát quan trọng. Thứ nhất, kết quả tích hợp tri thức (47% so với 46.3%, theo dữ liệu GPT-4.1) cho thấy đây không chỉ là việc đổ thêm dữ liệu vào, mà là mô hình thực sự tìm ra một định dạng học tốt hơn. Vấn đề quên thảm khốc (catastrophic forgetting) vẫn chưa được giải quyết, và cũng chưa rõ mức độ đa dạng dữ liệu thực sự được cải thiện đến đâu. Thứ hai, mỗi lần đánh giá phần thưởng mất 30~45 giây, nên hầu hết các tình huống sử dụng thực tế đều khó khả thi. Tuy vậy, với những tác vụ như xử lý tài liệu cực kỳ quan trọng, nơi cần tối ưu khả năng bảo toàn thông tin, thì điều này có thể đáng để đầu tư. Một hạn chế lớn là nó chỉ áp dụng cho các tác vụ có metric đánh giá rõ ràng (cần Q&A chuẩn hoặc test case để tính phần thưởng). Dù vậy, trong các lĩnh vực như tài liệu kỹ thuật hay tài liệu giáo dục, nơi có thể tự động hóa đánh giá, nó hoàn toàn có khả năng mở ra một mô hình xử lý tri thức hoàn toàn mới. Nó vẫn chưa đạt đến mức tác nhân tự cải thiện hoàn toàn, nhưng có cảm giác như một bước tiến quan trọng, nơi mô hình tự cải thiện cách học của chính mình.Vài ngày trước Anthropic cũng công bố nghiên cứu tương tự về self finetuning [liên kết bài báo arXiv]
Hiện đang có thảo luận liên quan diễn ra [chuỗi HN liên kết]
Tôi thấy điều này thực sự đáng kinh ngạc. Theo RM cấp production của Claude 3.5 Sonnet, một policy assistant unsupervised được đánh giá là thắng tới 60% trong so sánh cặp đôi so với policy được huấn luyện bằng RM có giám sát của con người. Tôi nghĩ giờ chúng ta đã bước vào giai đoạn mà các mô hình có thể đạt hiệu năng vượt trội hơn với nhau ngay cả khi không còn sự chỉ dẫn của con người.
LLM mạnh mẽ, nhưng vấn đề là nó không có cơ chế để thích nghi trọng số khi gặp một tác vụ mới. Trí tuệ con người tích hợp quá trình học và quá trình áp dụng vào cùng một vòng phản hồi, còn với LLM thì huấn luyện và suy luận tách biệt hoàn toàn. Chúng ta triển khai một mô hình mới đã “học” thêm đôi chút rồi loại bỏ mô hình cũ. Với LLM, suy luận chính là điểm kết thúc của việc học. Tôi nghĩ đây là hiểu lầm phổ biến nhất về AI. Nếu cứ tưởng LLM đang học, ta rất dễ rơi vào ảo tưởng rằng AGI sẽ sớm xuất hiện.
Như trường hợp của Deepseek, có thể dùng học tăng cường để refinement hiệu năng của LLM.
Nếu có thể huấn luyện lại LLM dựa trên phản ứng của người dùng (tích cực/tiêu cực) thì sao? Tôi đang hình dung liệu có thể dùng dữ liệu đầu vào và đầu ra để đưa vào một vòng phản hồi hay không.
Tôi thực sự muốn có một chuyên gia hiểu rất rõ về hiện trạng và giới hạn của hướng tiếp cận để LLM tiếp tục “học ngoài thực địa”, tức là những nghiên cứu nhằm khiến tác nhân dạng code học codebase theo thời gian (chi phí? model collapse? thứ khác?). Chắc chắn các phòng lab lớn sẽ thử việc này, nhưng từ góc nhìn người dùng phổ thông thì hầu như không nghe thấy các câu chuyện như vậy. Hiện tại có vẻ mọi người chỉ tập trung vào các phương pháp huấn luyện tốt hơn dựa trên RL, còn những gì mô hình không học được trong giai đoạn training thì về sau lại nhồi vào context. Nhưng tôi có cảm giác rằng việc thiếu khả năng tự học theo thời gian thực dựa trên kinh nghiệm chính là điểm phân tách với AGI.
Continual learning hiện chưa có một lời giải thật sắc bén nào. Việc người ta nhắc đến tài nguyên tính toán, model collapse, sự quên lãng v.v. đều là hợp lý. Cách duy nhất dường như là 1) huấn luyện mô hình 2) thêm dữ liệu mới 3) huấn luyện lại toàn bộ 4) lặp lại. Xét về thời gian thì không trường hợp nào có đảm bảo hoàn chỉnh. Trong lĩnh vực CL, thật sự vẫn chưa có câu trả lời “đúng nghĩa”. Cần vừa mở rộng không gian biểu diễn của mô hình, vừa giữ nguyên tối đa không gian biểu diễn cũ, mà đòi hỏi làm cả hai cùng lúc gần như là bất khả thi. Sinh vật có hệ thần kinh dường như làm điều này rất dễ dàng, nhưng với AI thì cực kỳ khó. Theo tôi, có lẽ trí tuệ nhân tạo cũng cần một khái niệm như “ngủ” hay “nghỉ ngơi”.
Tôi không phải chuyên gia, nhưng tôi nghĩ vấn đề quyền riêng tư cũng đóng vai trò quan trọng. Nếu muốn continual learning thì vì vấn đề lưu lượng hay chi phí, có lẽ buộc phải làm ở mức tổng hợp chứ không phải từng người dùng, nhưng như vậy lại phát sinh nguy cơ rò rỉ thông tin giữa các phiên. Tôi hoàn toàn đồng ý rằng tìm ra cách continual learning an toàn là trở ngại lớn nhất đối với AGI.
Vấn đề độ tin cậy cũng rất lớn. Vì không đủ chắc chắn vào đánh giá tự động, người ta sẽ không triển khai ngay một phiên bản continuous training tự động trước khi xác nhận nó thực sự cải thiện hiệu năng. Cuối cùng vẫn phải gom nhiều bản cập nhật lại rồi kiểm tra cuối cùng (“vibe check”) trước khi áp dụng thật.
Có vẻ vấn đề rõ ràng nhất là continual finetuning của LLM có thể rất dễ làm lệch
alignment. Kết quả là không thể bảo đảm tính ổn định và an toàn.Tôi nghĩ trở ngại rõ ràng nhất là vấn đề quên thảm khốc (catastrophic forgetting).
CPU của tôi là neural-net processor, learning computer. Nhưng tôi nhớ đến câu của Skynet là khi gửi đơn vị đi một mình thì nó chuyển switch sang chế độ chỉ đọc (
read-only) (trích Terminator).Giới thiệu trên website chính thức có kèm code và ví dụ [trang dự án SEAL]
Theo dự báo của Villalobos et al. [75], đến năm 2028, các frontier LLM sẽ chạm trần với toàn bộ văn bản công khai do con người viết. Người ta cho rằng “bức tường dữ liệu” này sẽ thúc đẩy nhu cầu về synthetic data augmentation. Khi kho ngữ liệu ở quy mô web cạn kiệt, rốt cuộc mô hình sẽ phải tự tạo ra các tín hiệu huấn luyện mới hiệu quả cao thì mới tiếp tục tiến bộ được. Kết luận là ý tưởng của SEAL là meta-training một mô hình sinh synthetic data để tiến hành pretraining với dữ liệu mới, từ đó nâng cao hiệu quả của các mô hình tương lai. Xét việc năm 2028 không còn xa, tôi thấy điều này rất sâu sắc.
Có cảm giác rằng “quên đúng cách” (
forgetting correctly) giờ đang trở thành vấn đề quan trọng hơn cả “học đúng cách” (learning correctly). Chúng ta đã đạt nhiều tiến bộ lớn trong việc tiếp thu nhanh các sự thật mới, nhưng kỹ thuật loại bỏ hiệu quả những thông tin kém quan trọng trong giới hạn dung lượng hữu hạn thì vẫn còn tụt lại khá xa. “Quên đúng cách” là điều bộ não con người làm rất giỏi, và tôi tò mò không biết nó thực sự vận hành như thế nào.Tôi không đồng ý rằng con người giỏi “quên đúng cách”. Thực ra tôi không nghĩ con người sở hữu một hệ thống đặc biệt xuất sắc đến thế. Dung lượng của não quá lớn, nên thay vì chủ động xóa chỗ cho thông tin mới, có lẽ nó vận hành theo kiểu chỉ quên đi khi thông tin cũ có hại cản trở việc học mới.
Tôi nghĩ việc học và spaced-repetition (lặp lại ngắt quãng) gắn bó rất chặt với nhau. Nó có liên quan nhiều đến các công cụ học như Anki, nhưng bản thân thế giới thực cũng chính là một hiện tượng spaced-repetition tự nhiên, nơi ta gặp lại mọi thứ theo chu kỳ (ngày đêm, mùa, những nơi thường đến, những người thường gặp, v.v.). Tôi đang tự hỏi liệu có tồn tại một “phiên bản ngược” (
reverse) của khái niệm này hay không.Trong nghiên cứu tôi từng làm, có dấu hiệu cho thấy LLM “ẩn” dữ liệu nội bộ. Nó không đơn thuần là “quên”; khi được huấn luyện thêm về sau, thông tin đó có thể lại nổi lên bề mặt. Vì vậy nếu khi huấn luyện mô hình mà không liên tục kiểm tra trạng thái bộ nhớ tổng thể thực sự, thì việc kiểm tra cục bộ sẽ có giới hạn lớn.
Hay là nó hoạt động kiểu least-recently-used? Tôi đang thử nghiệm trong đầu mình cho vui. Vì thế lĩnh vực này rất thú vị.
Bề ngoài thì đây giống một framework finetune LoRA adapter rồi hợp nhất vào base model. Nó đang dùng tính năng
merge_and_unloadtrongPeftModelcủa HuggingFace để tích hợp adapter vào base model… tôi không rõ có gì mới.