- Bài viết bàn về một mẫu hình học tập khác thường được quan sát trong quá trình tinh chỉnh các mô hình ngôn ngữ lớn (Large Language Models, LLMs), trong đó các mô hình này dường như có thể học hiệu quả chỉ từ một ví dụ duy nhất.
- Quan sát này đi ngược với hiểu biết phổ biến về hiệu quả mẫu của mạng nơ-ron, vốn hàm ý rằng thường cần nhiều ví dụ để học hiệu quả.
- Để kiểm chứng hiện tượng này, các tác giả đã thực hiện một loạt thí nghiệm, qua đó ủng hộ giả thuyết rằng LLM có thể ghi nhớ đầu vào rất nhanh.
- Quá trình học của mạng nơ-ron bao gồm việc đưa cho mô hình các ví dụ đầu vào và đầu ra, rồi huấn luyện để chúng dự đoán đầu ra dựa trên đầu vào. Quá trình này được lặp lại nhiều lần (epoch) để mô hình học hiệu quả.
- Khi huấn luyện mô hình cho một cuộc thi Kaggle, các tác giả đã quan sát thấy mức giảm loss đột ngột ở cuối mỗi epoch; đây là điều bất thường và ban đầu bị nghi là một lỗi.
- Các tác giả cùng những nhà phát triển khác trong cộng đồng cũng phát hiện ra các mẫu hình tương tự dù dùng các vòng lặp huấn luyện và phương pháp khác nhau, cho thấy đây không phải lỗi mà là một đặc tính của quá trình tinh chỉnh LLM.
- Giả thuyết cho rằng các đường cong huấn luyện này đang thể hiện hiện tượng overfitting, tức mô hình đang học cách nhận ra đầu vào chỉ từ một hoặc hai ví dụ.
- Các tác giả đã tiến hành thí nghiệm với nhiều lịch learning rate khác nhau và quan sát thấy mô hình học cách nhanh chóng nhận ra ví dụ ngay cả khi chỉ nhìn thấy chúng một lần.
- Các tác giả cho rằng các mô hình ngôn ngữ lớn đã được tiền huấn luyện có thể sở hữu một bề mặt loss rất trơn trong vùng gần mức loss tối thiểu, nhờ đó chúng có thể học rất nhanh từ một ví dụ duy nhất.
- Khả năng học nhanh này có thể thách thức các phương pháp huấn luyện truyền thống, đồng thời làm trầm trọng thêm vấn đề quên thảm họa, khi mô hình quên thông tin đã học trước đó mỗi khi thông tin mới được đưa vào.
- Các tác giả đề xuất một số chiến lược giảm thiểu có thể áp dụng, chẳng hạn tăng sử dụng các kỹ thuật như dropout hoặc stochastic depth, hoặc dùng hỗn hợp nhiều tập dữ liệu khác nhau trong quá trình huấn luyện.
- Các tác giả cũng kêu gọi thêm nhiều nghiên cứu và các giả thuyết thay thế để hiểu rõ hơn hiện tượng này cũng như tác động của nó đối với việc huấn luyện và sử dụng LLM.
1 bình luận
Ý kiến trên Hacker News