LLM có thể học chỉ từ một ví dụ duy nhất không?

(fast.ai)

2 điểm bởi GN⁺ 2023-09-07 | 1 bình luận | Chia sẻ qua WhatsApp

Trong khi tinh chỉnh mô hình cho Kaggle LLM Science Exam, fast.ai đã quan sát thấy đường cong loss dường như cho thấy LLM ghi nhớ các ví dụ trong bộ dữ liệu sau khi chỉ nhìn một lần
Các mạng nơ-ron thông thường thường học dần dần qua nhiều epoch, nhưng trong thí nghiệm này, training loss giảm mạnh theo từng bậc ở ranh giới giữa các epoch, khác với kinh nghiệm trước đây
Mẫu hình tương tự xuất hiện bất kể dùng Hugging Face Trainer, LoRA hay full fine-tuning, khiến khả năng chỉ là lỗi thư viện trở nên khó thuyết phục
Trong các thí nghiệm với cyclical learning rate và 1cycle, thay đổi của training loss, validation loss và MAP@3 nhìn chung phù hợp với giả thuyết ghi nhớ, và validation loss xấu đi không đồng nghĩa ngay với độ chính xác giảm
Nếu LLM tiền huấn luyện thực sự học rất nhanh, cần xem lại các chiến lược fine-tuning như catastrophic forgetting, data augmentation, data mixing và dropout

Đường cong loss khác với quá trình học thông thường của mạng nơ-ron

Bộ phân loại mạng nơ-ron điều chỉnh xác suất đầu ra bằng cách lặp đi lặp lại việc xem đầu vào và nhãn đúng
- Quá trình đi qua toàn bộ dữ liệu huấn luyện một lần được gọi là epoch
- Loss cho biết mô hình sai đến mức nào, và các dự đoán sai với độ tự tin cao sẽ bị phạt nặng hơn
Thông thường ở giai đoạn đầu huấn luyện, training loss giảm nhanh rồi chậm dần, còn validation loss cải thiện chậm hơn
- Chỉ nhìn vào biểu đồ loss thì thường khó thấy rõ điểm bắt đầu và kết thúc của từng epoch
- Theo kinh nghiệm thực tế, mạng nơ-ron thường cần nhiều epoch để thật sự nắm được một hình ảnh cụ thể
fast.ai đã phát hiện một mẫu hình khác khi huấn luyện mô hình giải các câu hỏi khoa học trắc nghiệm trong Kaggle LLM Science Exam
- Mô hình được huấn luyện 3 epoch bằng bộ dữ liệu câu hỏi lớn do Radek Osmulski tạo ra
- Ở cuối mỗi epoch, training loss bất ngờ giảm mạnh theo dạng bậc thang

Từ nghi ngờ bug đến giả thuyết ghi nhớ

Ban đầu, nhóm nghi ngờ có bug trong quy trình huấn luyện
- Ví dụ, nếu mô hình vẫn tiếp tục học trong lúc đánh giá trên tập validation, thì sau khi validation xong mô hình có thể trông như đột nhiên tốt lên
- Khả năng có vấn đề ở Hugging Face Trainer đang sử dụng được xem xét trước tiên
Các lập trình viên mã nguồn mở trong Alignment Lab AI Discord cũng cho biết họ từng thấy đường cong loss tương tự
- Vì những người phản hồi đầu tiên đều dùng Trainer, giả thuyết lỗi thư viện có vẻ khá hợp lý
- Sau đó cũng có các trường hợp cho thấy cùng một đường cong xuất hiện cả trong custom training loop
Nhóm cũng kiểm tra xem đây có phải hiện tượng riêng của LoRA hay không, nhưng full fine-tuning cũng cho cùng mẫu hình
- Trong cộng đồng fine-tuning LLM, kiểu đường cong loss này gần như đã là hiện tượng khá phổ biến

Mẫu hình ghi nhớ nhanh quan sát được trong thí nghiệm Kaggle

Cách giải thích mà các cộng sự mã nguồn mở đưa ra là đường cong loss đang cho thấy overfitting
- Nghĩa là mô hình học đến mức nhận ra đầu vào chỉ sau khi nhìn một hoặc hai lần, điều này ban đầu có vẻ khó tin
- Ở biểu đồ đầu tiên, loss giảm từ 0.8 xuống 0.5 sau epoch đầu tiên, rồi từ 0.5 xuống dưới 0.2 sau epoch thứ hai
- Trong phần giữa epoch thứ hai và thứ ba, gần như không thấy thêm việc học mới
Nếu cách giải thích này đúng, thì chỉ với việc nhìn mỗi dòng dữ liệu 3 lần, mô hình gần như đã ghi nhớ toàn bộ tập huấn luyện
- Với mỗi câu hỏi, tín hiệu mà mô hình nhận được chỉ là so sánh giữa nhãn đúng và lựa chọn của chính nó
- Thế nhưng training loss vẫn giảm rất mạnh

Biến động loss khi dùng cyclical learning rate

Khi huấn luyện mô hình Kaggle trong 2 epoch, nhóm đã dùng lịch cyclical learning rate dựa trên bài báo năm 2015 của Leslie Smith, Cyclical Learning Rates for Training Neural Networks
Đường cong của epoch đầu tiên khá giống mẫu hình học thông thường
- Learning rate được warm up trong 10% đầu tiên
- Sau đó learning rate được giảm theo lịch cosine
- Khi learning rate tăng đủ cao, training loss và validation loss giảm nhanh rồi sau đó chậm dần
Ở epoch thứ hai, bộ dữ liệu không được xáo trộn lại nên các batch đầu lại xuất hiện ở mức learning rate thấp
- Các batch này ở epoch đầu cũng chỉ được nhìn thấy với learning rate thấp nên mô hình chưa học được nhiều từ chúng
- Gần cuối 10% đầu tiên, những batch đã từng được nhìn thấy với learning rate cao ở epoch đầu xuất hiện trở lại, khiến training loss giảm mạnh
Trong cùng đoạn đó, validation loss lại xấu đi
- Điều này có thể được hiểu là mô hình không generalize tốt hơn, mà đang ghi nhớ dữ liệu huấn luyện và trở nên cực kỳ tự tin vào đáp án đúng
- Vì hàm loss phạt nặng hơn với các dự đoán sai nhưng rất tự tin, validation loss trở nên tệ hơn
Ở nửa sau đường cong, training loss lại xấu đi trở lại
- Việc training loss xấu đi ở một learning rate hợp lý không phải hiện tượng thường thấy
- Theo giả thuyết ghi nhớ, điều này được giải thích là mô hình chưa thể ghi nhớ hiệu quả các batch từng thấy ở learning rate thấp, trong khi trạng thái quá tự tin từ các batch ngay trước đó vẫn còn kéo dài
- Sau đó mô hình được điều chỉnh lại về mức độ tự tin hợp lý hơn, và validation loss lại giảm xuống

Thí nghiệm 1cycle và khác biệt giữa các chỉ số đánh giá

Trong thí nghiệm tiếp theo, nhóm dùng 1cycle training trong 3 epoch
- Learning rate chỉ được warm up một lần ở 10% đầu của batch mở đầu quá trình huấn luyện
- Ở các batch còn lại, learning rate giảm theo lịch cosine
- Không lặp lại riêng phần warmup và decay cho từng epoch như thí nghiệm trước
- Rank của LoRA được tăng lên để làm chậm tốc độ học
Đường cong kết quả nhìn chung phù hợp với cách giải thích trước đó, nhưng validation loss tăng xuất hiện ở epoch 3 thay vì epoch 2
- Ở thí nghiệm trước, training loss đã giảm xuống khoảng 0.2 ở epoch thứ hai, cho phép các dự đoán cực kỳ tự tin
- Trong thí nghiệm 1cycle, phải đến epoch thứ ba mới đạt mức độ tự tin như vậy, và validation loss tăng cũng xuất hiện khi đó
Validation loss xấu đi không nhất thiết có nghĩa là overfitting thực sự
- Chỉ số trên bảng xếp hạng Kaggle là Mean Average Precision @ 3, tức độ chính xác dựa trên thứ hạng của 3 dự đoán trắc nghiệm hàng đầu
- MAP@3 trên tập validation theo từng batch của quá trình huấn luyện 1cycle vẫn tiếp tục cải thiện ở epoch cuối dù validation loss xấu đi
Có thể xem thêm log bổ sung và notebook tái hiện trong báo cáo của Johno

Vì sao việc học từ một ví dụ duy nhất có thể xảy ra

Không có quy luật nền tảng nào nói rằng mạng nơ-ron không thể nhận diện đầu vào chỉ từ một ví dụ duy nhất
- Chỉ là các nhà nghiên cứu và người làm thực tế từ trước đến nay vẫn tin theo kinh nghiệm rằng mạng nơ-ron cần nhiều ví dụ
- Nếu bề mặt loss mà stochastic gradient descent (SGD) phải khám phá quá gồ ghề, sẽ khó để di chuyển mạnh chỉ trong một bước
Một số yếu tố giúp làm bề mặt loss mượt hơn đã được biết đến
- Visualizing the Loss Landscape of Neural Nets của Li et al. 2018 bàn về mối quan hệ giữa residual connection và bề mặt loss
LLM tiền huấn luyện có thể sở hữu một bề mặt loss rất mượt ở vùng gần mức loss tối thiểu
- Rất nhiều công việc fine-tuning trong cộng đồng mã nguồn mở có thể đang diễn ra trong chính vùng đó
- Điều này nối tiếp giả định từng được nêu trong bài báo ULMFiT năm 2018
Ý tưởng cốt lõi của ULMFiT là một mô hình giỏi language modeling sẽ tự xây dựng bên trong các tầng trừu tượng hóa phong phú và các tầng năng lực
- Những tầng đó có thể được áp dụng cho nhiệm vụ khác chỉ với rất ít fine-tuning
- LLM ngày nay lớn hơn rất nhiều so với các mô hình trong ULMFiT, nên có thể sở hữu các tầng trừu tượng hóa còn phong phú hơn
Fine-tuning cho các câu hỏi khoa học trắc nghiệm có thể gần với việc gọi ra những năng lực và tri thức vốn đã có sẵn trong mô hình
- Có thể không cần điều chỉnh quá nhiều trọng số
- Một mô hình ngôn ngữ tiền huấn luyện gắn thêm một classification head nhỏ khởi tạo ngẫu nhiên có thể đang ở vị trí thuận lợi để di chuyển mượt mà tới một thiết lập trọng số tốt
- Với optimizer Adam, gradient nhất quán và mượt có thể làm tăng effective dynamic learning rate, dẫn đến những bước cập nhật lớn

Những câu hỏi mới cho chiến lược fine-tuning

Nếu mô hình học quá nhanh, các giả định nền tảng của cách huấn luyện hiện nay có thể bị lung lay
- Mô hình học chậm có thể xem dữ liệu đa dạng qua nhiều epoch để dần rút ra thông tin có thể generalize
- Mô hình học nhanh có thể ghi nhớ ngay những ví dụ đã thấy và tạo ra các hiện tượng khác hẳn
Catastrophic forgetting có thể trở nên rõ rệt hơn
- Sau khi nhìn 10 ví dụ của một quan hệ rất phổ biến rồi nhìn 1 phản ví dụ ít gặp hơn, mô hình có thể ghi nhớ phản ví dụ đó thay vì chỉ giảm nhẹ mức ghi nhớ của 10 ví dụ trước
Hiệu quả chống overfitting của data augmentation cũng có thể yếu đi
- Nếu LLM đã rút trích biểu diễn của thông tin đầu vào rất tốt, thì việc trộn thêm paraphrasing hay back-translation có thể về thực chất vẫn chỉ cung cấp cùng một thông tin
Một số ứng viên để giảm nhẹ vấn đề là dropout và stochastic depth
- Dropout đã được dùng phần nào trong các kỹ thuật fine-tuning như LoRA
- Còn stochastic depth dường như vẫn chưa có ví dụ được sử dụng ở mức đáng kể trong NLP
Một cách khác là duy trì pha trộn bộ dữ liệu phong phú trong toàn bộ quá trình huấn luyện
- Llama Code từng gặp catastrophic forgetting khi hiệu năng code tăng lên còn các năng lực khác giảm mạnh
- Khi đó tỷ trọng dữ liệu không phải code là 10%
- Nếu pha trộn gần mức 50/50, có thể mô hình đã vừa đạt được năng lực code vừa không làm mất các năng lực sẵn có

1 bình luận

GN⁺ 2023-09-07

Các ý kiến trên Hacker News

Cảm ơn vì đã đăng bài này lên HN. Tôi là một trong các đồng tác giả của bài viết, và quá trình cùng Johno đào sâu vào hiện tượng kỳ lạ gọi là ghi nhớ nhanh của LLM thật sự rất thú vị.
Tôi đã làm việc với mạng nơ-ron suốt 30 năm và tinh chỉnh mô hình ngôn ngữ từ năm 2017, nhưng hành vi này vẫn khiến tôi rất ngạc nhiên. Những người khác cũng đã thấy hiện tượng tương tự ở LLM, nhưng tôi chưa thấy kiểu phân tích như thế này, và cũng có thể chúng tôi đã bỏ sót điều gì đó.
- Trong bài báo Palm-E (https://palm-e.github.io/), điều thú vị là khi mở đóng băng LLM và huấn luyện chỉ bằng dữ liệu hình ảnh mới, đúng như dự đoán sẽ xảy ra quên thảm họa rất lớn trong các tác vụ xử lý ngôn ngữ tự nhiên, nhưng ảnh hưởng đó giảm mạnh khi quy mô LLM trước huấn luyện càng lớn.
  Mô hình 12B giảm hiệu năng trung bình -87,3%, 84B giảm -61,6%, còn 562B chỉ giảm vỏn vẹn -3,9%. Cảm giác như gần chạm tới một hiểu biết nào đó, và tôi tự hỏi liệu việc tránh quên thảm họa có thể đơn giản chỉ là vấn đề quy mô hay không.
- Việc thiếu thông tin mô hình nền tảng là gì có vẻ là một sai sót lớn, và tôi nghĩ không nên quy hiện tượng này cho LLM nói chung.
  Tôi không phải nhà nghiên cứu, nhưng rõ ràng không phải mọi LLM đều có cùng kiến trúc; thậm chí các kiến trúc tương tự cũng có thể tiến hóa để hoạt động khá khác nhau về mặt chức năng trên cùng một đầu vào. Thế nhưng nhiều bài viết dường như đối xử với LLM như thể chúng là một kiến trúc và một mô hình duy nhất.
- Jeremy, tôi luôn thích các công trình của anh. Vì thiên văn học là chuyên môn của tôi, xin bổ sung về mặt kỹ thuật: ví dụ MOND được mô tả ở đây thật ra đáp án đúng phải là lựa chọn (E).
- Jeremy, nếu tính loss của một batch một lần, cập nhật gradient rồi dùng no_grad để tính lại loss của cùng batch đó, có lẽ ta có thể tính chính xác mô hình đã học được bao nhiêu trong một bước.
  Vẽ biểu đồ chênh lệch giữa loss lần đầu và lần thứ hai theo batch hoặc theo từng quan sát/câu hỏi có vẻ sẽ cho ra kết quả thú vị.
- Rất thú vị. Trước đây trong issue của Hugging Face transformers cũng từng có thảo luận tương tự, và khi đó chúng tôi cũng cho rằng ghi nhớ là lý do có khả năng cao. Thật vui khi thấy một nhóm khác cũng đi đến cùng kết luận.
  https://github.com/huggingface/transformers/issues/18730
Tôi không rõ mọi người có thật sự dùng cụm “over confident” theo nghĩa này không. Đây là cách diễn đạt khá dễ gây hiểu lầm, và điều đang xảy ra ở đây nên được gọi là quá khớp.
Nếu xem dữ liệu là các điểm, một mô hình tổng quát hóa tốt sẽ cố tạo ra hàm đơn giản nhất khớp khá tốt với các điểm dữ liệu huấn luyện. Nhưng nếu tiếp tục huấn luyện, các tham số có thể trở nên rất lớn, khiến đường cong hàm cố đi chính xác qua dữ liệu huấn luyện và dao động mạnh vượt xa phạm vi dữ liệu thực.
Vì vậy về mặt kỹ thuật nó khớp dữ liệu huấn luyện tốt hơn, nhưng lại trở thành một hàm kỳ quặc cho đầu ra cực đoan trên dữ liệu mới, khiến khả năng tổng quát hóa gần như tệ nhất. Tuy nhiên, quá khớp không giống với ghi nhớ. Mô hình lớn có thể ghi nhớ tập dữ liệu nhỏ mà không quá khớp, vì có quá nhiều tham số nên chỉ cần thay đổi rất ít để khớp dữ liệu huấn luyện. Khi đó việc học dừng lại nhưng không có tổng quát hóa; trường hợp này được gọi là thiếu xác định.
Cũng có những mô hình xuất cả đầu ra lẫn độ tin cậy, nên “quá tự tin” cũng có thể được dùng để chỉ việc mô hình dự đoán sai mức độ tin cậy cao, tức phương sai lỗi thấp.
- Nếu xem mạng nơ-ron sau khi áp dụng argmax lên xác suất đầu ra như một hàm, thì đây hoàn toàn không phải là quá khớp. Độ chính xác phân loại trên dữ liệu chưa thấy, tức tập kiểm định, vẫn tiếp tục cải thiện.
  Điểm mấu chốt ở đây là vấn đề hiệu chuẩn: https://en.m.wikipedia.org/wiki/Calibration_(statistics). Nghĩa là xác suất đầu ra của mạng nơ-ron không phản ánh xác suất quan sát thực tế. Nếu xác suất bị ước lượng thấp một cách có hệ thống thì gọi là “thiếu tự tin”, còn ước lượng cao thì gọi là “quá tự tin”.
  Trong trường hợp này, dù hiệu chuẩn xấu đi khiến loss kiểm định tăng, bộ phân loại trên dữ liệu chưa thấy vẫn có thể tiếp tục được cải thiện.
- Với một mô hình có độ chính xác cải thiện, người ta không dùng từ quá khớp. Tôi nghĩ cách gọi đó gây hiểu lầm.
- Loss trên tập huấn luyện tốt lên còn loss trên tập kiểm định xấu đi, nên tôi nghĩ đây là một dạng quá khớp. Tuy nhiên nó khác với kiểu quá khớp thường gặp, nơi độ chính xác trên tập kiểm định xấu đi.
  Ở đây độ chính xác trên dữ liệu kiểm định vẫn tiếp tục tốt hơn, nhưng khi sai thì mô hình sai với độ tin cậy cao hơn trước. Ví dụ trước đây nó sai khi tin 60% rằng đáp án là X, còn bây giờ vẫn sai là X nhưng lại thể hiện mức tin cao hơn, chẳng hạn 70%. Vì vậy đây là một dạng quá khớp kỳ lạ, và cách gọi cụ thể hơn là “quá tự tin” có vẻ phù hợp.
Tôi không phải chuyên gia LLM, nhưng nhìn từ góc độ học máy nói chung thì điều này không quá đáng ngạc nhiên.
Ta đã có một mô hình sinh với hàng chục tỷ tham số vốn đã gán một phần khối lượng xác suất nào đó cho các mẫu tinh chỉnh. Giờ ta tính gradient làm tăng khối lượng xác suất đó và đi một bước theo hướng ấy. Rốt cuộc, điều khiến tác giả ngạc nhiên là chỉ một bước đó đã làm tăng mạnh khối lượng xác suất của mẫu.
Nhưng mô hình sinh vốn được siêu tham số hóa cực mạnh, và đã gán một phần khối lượng xác suất nào đó cho mẫu tinh chỉnh. Nếu trong không gian tham số hàng chục tỷ chiều lại không có hướng nào nhanh chóng tăng xác suất cho một số mẫu tương đối ít, thì điều đó mới đáng ngạc nhiên hơn.
- Tôi cũng nghĩ vậy. Tôi hoàn toàn không thấy ngạc nhiên, nên còn tự hỏi liệu mình có bỏ sót điều gì không.
Chẳng phải kết quả này ở một mức nào đó đã khá rõ ràng từ thực tế rằng phần lớn LLM hiện nay chỉ được huấn luyện một epoch sao?
Vì nếu chỉ huấn luyện một epoch, điều đó có nghĩa là chỉ cần quét dữ liệu lần thứ hai cũng đã có nguy cơ quá khớp. Tuy nhiên, điều này có vẻ hơi mâu thuẫn với kết quả của bài báo này [0], vốn cho rằng dữ liệu cũ vẫn tốt ngang dữ liệu mới ít nhất đến 4 epoch.
[0]: https://arxiv.org/abs/2305.16264
- Chỉnh nhẹ một chút: khá nhiều LLM công khai được huấn luyện ít nhất là hơn một epoch một chút, và thường chạy nhiều epoch trên các tập con dữ liệu cụ thể như Wikipedia.
- Không phải chỉ huấn luyện một epoch. Với dữ liệu chất lượng cao, họ chạy nhiều epoch. Nhóm Llama của Meta cũng đã cho thấy rằng nếu huấn luyện nhiều hơn, với nhiều token hơn, loss vẫn tiếp tục giảm.
Có thể không liên quan, nhưng tôi đã thử nhờ ChatGPT viết mã để điều khiển bằng lập trình các chi tiết bộ lọc cột của bảng tính Excel trong PowerShell.
Mọi cách thử đều không được, có cái gần đạt nhưng vẫn không hoạt động. Cuối cùng tôi tìm được đoạn mã C# sửa được vấn đề, dán vào ChatGPT để nó đọc rồi nhờ sửa vấn đề trong PowerShell; nó nói đã hiểu giải pháp, chỉnh lại script và chạy hoàn hảo.
Vì lý do nào đó, hành vi này là một trải nghiệm khá mở mang tầm mắt. Khi cung cấp trong câu hỏi tài liệu mà nó chưa được học, nó đã giải quyết được. Tôi hiểu điều đó khả dĩ thế nào từ góc nhìn học ngôn ngữ, nhưng việc LLM có thể làm được chuyện như vậy thực sự khiến tôi thấy rất hay.
- Một giai thoại thú vị. Tôi thấy hiện có một xu hướng chung là mọi người quá tập trung vào truy xuất tri thức trong mô hình, còn đánh giá thấp phần “mô hình ngôn ngữ”.
  Những thứ này có khả năng nói và giải thích tốt nên rất dễ bị nhân hóa. Chúng làm tốt đến mức ta xem một thành tựu khổng lồ, gần như ma thuật, của kỹ thuật thống kê như một khối xây dựng cơ bản tầm thường. Nhưng khối đó là một viên gạch bằng vàng.
  Dịch từ ngôn ngữ tự nhiên sang mã, từ văn bản sang âm thanh, từ ảnh sang ảnh, từ một ngôn ngữ tự nhiên sang ngôn ngữ tự nhiên khác; chỉnh sửa, tóm tắt, mở rộng và ngoại suy — đó là những gì các mô hình này làm. “Tri thức” nội tại chỉ là ngữ cảnh mà thôi.
  Tôi nhìn nhận vector embedding hơi khác: nó là một dạng lập danh mục ngữ nghĩa giống như Dewey decimal, cho phép tìm kiếm. Nhưng việc truy xuất dữ liệu trực tiếp từ mô hình kiểu “Tổng thống Mỹ năm 1984 là ai” thì cá nhân tôi không thấy thú vị lắm.
Tôi tò mò liệu LLM đã từng được dùng để củng cố dữ liệu huấn luyện của chính nó chưa.
Nếu huấn luyện LLM với ít đầu vào, rồi tạo ra nhiều đầu vào tổng hợp và thêm vào dữ liệu huấn luyện thì sẽ thế nào? Tôi đang nghĩ về nó như một kiểu “mơ”. Có lẽ chỉ thêm nhiễu, nhưng LLM có thể tự bổ sung ngữ cảnh và cải thiện đầu ra bằng cách “nghĩ thành tiếng”, nên tôi tự hỏi liệu nó cũng có thể làm điều tương tự với dữ liệu huấn luyện không.
- Có. Khá nhiều nghiên cứu gần đây dùng đầu ra của LLM làm dữ liệu huấn luyện, và đó là một hướng nghiên cứu rất thành công.
- Về cơ bản RLHF là như vậy. Dùng một tập dữ liệu nhỏ do con người tuyển chọn, cho biết đầu ra tốt và xấu là gì, làm chỉ dẫn để LLM tự huấn luyện chỉ bằng đầu ra của chính nó.
- Thú vị là kết luận này trái ngược hẳn với bình luận anh em cho rằng một corpus nhỏ do con người tuyển chọn có thể hiệu quả hơn một tập dữ liệu tổng hợp lớn.
- Nếu mô hình học trên cùng dữ liệu do chính nó tạo ra thì không có thông tin mới nào được thêm vào hệ thống. Nó sẽ củng cố cả những thứ nó đã đoán đúng lẫn đoán sai, nên sẽ không cải thiện.
  Tuy nhiên, việc dùng một mô hình lớn để tạo dữ liệu huấn luyện tổng hợp rồi huấn luyện một mô hình khác nhỏ hơn là rất phổ biến. Bằng cách này có thể chuyển tri thức từ một mô hình sang mô hình khác.
- Bạn có thể tự thử điều sau để tìm câu trả lời: tạo dữ liệu ngẫu nhiên theo một mô hình nào đó, khớp hồi quy tuyến tính hoặc một phân phối khác, rồi lấy mẫu từ phân phối đó và thêm vào tập huấn luyện.
Tôi cảm thấy tiêu đề dễ gây hiểu nhầm.
Trong ngữ cảnh học, học từ một ví dụ duy nhất là điều mong muốn, còn ghi nhớ máy móc thì không phải vậy, đúng không? Cái trước là mục tiêu nhằm tiệm cận cách động vật học, còn cái sau là một chế độ lỗi thường gặp. Bài viết có vẻ cho thấy một trường hợp ghi nhớ không được giải thích, chứ không phải học.
Khi huấn luyện ViT từ đầu, tôi đã thấy đường cong loss tương tự, và nó luôn làm tôi bận tâm nhưng vì có những mối lo lớn hơn nên tôi không đào sâu.
Khác biệt là loss huấn luyện tăng lên trong mỗi epoch. Mức giảm mạnh giữa các epoch đủ lớn để tổng thể loss huấn luyện giảm xuống và loss kiểm chứng cũng tiếp tục giảm. Mô hình đạt khá gần mức hiện đại, nên có vẻ là “bình thường”.
Tôi chưa từng huấn luyện mạng nơ-ron tích chập ở quy mô này nên không biết hiện tượng tương tự có xuất hiện ở đó không, nhưng nếu có thì chắc ai đó đã nhắc đến. Vì vậy tôi nghĩ các đường cong loss kỳ lạ như thế này có thể là đặc trưng riêng của các mô hình dựa trên Transformer.
- Bài gốc nói LLM cần trừu tượng hóa mạnh, và mạng Transformer về cơ bản là trường hợp như vậy; điều đó thể hiện rõ khi huấn luyện từ đầu.
  Mô hình gần như chẳng đi đến đâu trong một thời gian dài và trông hoàn toàn vô dụng, rồi đến một lúc nào đó, sau nhiều chu kỳ huấn luyện, khi các trọng số tìm được một cực tiểu nào đó trên bề mặt lỗi, nó đột nhiên bắt đầu làm việc đúng cách. Đó là vì Transformer đã học được một trừu tượng hóa hoạt động trên toàn bộ dữ liệu đầu vào xét theo cơ chế attention. Có thể nghĩ đến cách ta lướt qua câu khi đọc. Tôi đang giải thích theo ký ức về một bài từng thấy trên HN, nên không phải lời giải thích hoàn hảo.
- Tôi từng thấy trong các đường cong loss huấn luyện của người khác hiện tượng loss tăng trong epoch rồi giảm mạnh ở cuối epoch. Bản thân chưa từng gặp, và hoàn toàn không biết nguyên nhân.
- Sau epoch đầu tiên, thời gian trung bình kể từ lần cuối mục dữ liệu hiện tại được dùng để huấn luyện sẽ ngắn ở đầu epoch và dài dần trong quá trình epoch diễn ra. Tôi dự đoán thời gian đó sẽ tương quan dương với loss của vòng lặp hiện tại.
- Nếu loss tăng ngay cả trong epoch đầu tiên thì có vẻ hơi lạ.
Giờ tôi tự hỏi liệu việc học hoặc ghi nhớ tức thì những thông tin như ngữ cảnh chat hiện tại như một phần của trọng số mô hình có hiệu quả về mặt tính toán không.
Mã hóa one-shot mà hồi hải mã làm rất tốt cho phép biến trải nghiệm thành ký ức có thể truy xuất, được liên kết với các khái niệm ngữ nghĩa đã học trước đó. Trên thực tế, điều này cải thiện khi ta đi từ thời thơ ấu đến trưởng thành, vì khả năng khái niệm hóa ngữ nghĩa về sự kiện trở nên phong phú hơn.
Nếu việc LLM ghi nhớ sự kiện được tăng tốc nhờ khung ngữ nghĩa sâu như vậy, liệu điều này có thể mở ra một con đường tới cửa sổ ngữ cảnh dài không?
- Có thể, nhưng vẫn còn nhiều điều chưa biết. Vấn đề là liệu việc ghi nhớ tức thì có đi kèm quên thảm họa đối với thông tin khác hay không, và làm thế nào để kiểm soát việc ghi nhớ nội dung gần đây so với nhớ nội dung cũ.
- Chỉ là suy nghĩ của người mới, nhưng tôi thích ý tưởng này. Bạn sẽ cần một bản sao mô hình riêng có thể thay đổi, mà thường thì nó rất lớn. Ngoài ra cần backpropagation nên cũng tốn thêm chút tính toán.
  Với các mô hình cục bộ nhỏ hơn GPT-3.5/4 thì có thể khả thi. Cũng cần quyết định cái gì nên để trong bộ nhớ dài hạn và cái gì để trong bộ nhớ ngắn hạn.
Nếu điều này là đúng, nó củng cố quan điểm rằng tập dữ liệu do con người tuyển chọn nhỏ hơn rất nhiều so với các tập dữ liệu tổng hợp do LLM tạo ra sẽ có giá trị cao hơn nhiều
- Bên nào có nhiều thông tin nhất sẽ thắng. Nếu thông tin có cấu trúc, ta có thể tận dụng mạnh mẽ cấu trúc đó để tạo dữ liệu tổng hợp
  Có thể lấy Apple Sim làm ví dụ. Đây là một kho lưu trữ mô hình 3D trong nhà; bằng cách điều khiển renderer, có thể tạo ra nhiều tầng thông tin rồi dùng cho ảnh thật. Vì cách này được dùng rộng rãi trong toàn bộ lĩnh vực hình ảnh, không gian vector khá tự nhiên đối với embedding. Nói theo đại số, không cần thêm quá nhiều cấu trúc
  Nếu miền có tính đại số mạnh, cũng có thể tạo ngẫu nhiên các ví dụ đúng, và tôi muốn khuyến nghị tình huống như vậy cho mọi người
- Google đã đi đến kết luận đó khoảng 2 năm trước, nhưng vẫn chưa cho thấy kết quả rõ rệt. Từ khóa ở trên là được tuyển chọn
- Sẽ có một chỉ số giá trị nào đó cân bằng giữa số lượng và chất lượng, và ở thời điểm chúng ta hiểu ở mức trung bình về cách công nghệ vận hành như hiện nay, có vẻ có thể tận dụng chỉ số đó. Nói cách khác, có lợi ích tiềm năng từ dữ liệu tổng hợp
  Tuy nhiên, tôi cho rằng một ngày nào đó quy luật không có bữa trưa miễn phí sẽ phát huy tác dụng, và dữ liệu tổng hợp cũng không phải lúc nào cũng quan tâm đến quá trình tạo dữ liệu của các giá trị ngoại lai
- Khó đồng ý. Ngược lại, tôi cho rằng AI thời ULMFiT cuối cùng đã chấm dứt nhu cầu về dữ liệu do con người tuyển chọn
  ChatGPT 4 hiện đã được dùng như một mô hình oracle để huấn luyện các mô hình AI thông dụng. Một mô hình oracle thực sự khổng lồ sẽ khiến phần lớn mọi thứ trở nên không cần thiết, ngoại trừ một lượng rất nhỏ đầu vào từ con người
- Tại sao chúng ta chỉ có thể lý thuyết hóa những điều này? Tại sao chúng ta không thể biết những thứ này hoạt động như thế nào và vì sao?

LLM có thể học chỉ từ một ví dụ duy nhất không?

Đường cong loss khác với quá trình học thông thường của mạng nơ-ron

Từ nghi ngờ bug đến giả thuyết ghi nhớ

Mẫu hình ghi nhớ nhanh quan sát được trong thí nghiệm Kaggle

Biến động loss khi dùng cyclical learning rate

Thí nghiệm 1cycle và khác biệt giữa các chỉ số đánh giá

Vì sao việc học từ một ví dụ duy nhất có thể xảy ra

Những câu hỏi mới cho chiến lược fine-tuning

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News