2 điểm bởi GN⁺ 2023-09-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết bàn về một mẫu hình học tập khác thường được quan sát trong quá trình tinh chỉnh các mô hình ngôn ngữ lớn (Large Language Models, LLMs), trong đó các mô hình này dường như có thể học hiệu quả chỉ từ một ví dụ duy nhất.
  • Quan sát này đi ngược với hiểu biết phổ biến về hiệu quả mẫu của mạng nơ-ron, vốn hàm ý rằng thường cần nhiều ví dụ để học hiệu quả.
  • Để kiểm chứng hiện tượng này, các tác giả đã thực hiện một loạt thí nghiệm, qua đó ủng hộ giả thuyết rằng LLM có thể ghi nhớ đầu vào rất nhanh.
  • Quá trình học của mạng nơ-ron bao gồm việc đưa cho mô hình các ví dụ đầu vào và đầu ra, rồi huấn luyện để chúng dự đoán đầu ra dựa trên đầu vào. Quá trình này được lặp lại nhiều lần (epoch) để mô hình học hiệu quả.
  • Khi huấn luyện mô hình cho một cuộc thi Kaggle, các tác giả đã quan sát thấy mức giảm loss đột ngột ở cuối mỗi epoch; đây là điều bất thường và ban đầu bị nghi là một lỗi.
  • Các tác giả cùng những nhà phát triển khác trong cộng đồng cũng phát hiện ra các mẫu hình tương tự dù dùng các vòng lặp huấn luyện và phương pháp khác nhau, cho thấy đây không phải lỗi mà là một đặc tính của quá trình tinh chỉnh LLM.
  • Giả thuyết cho rằng các đường cong huấn luyện này đang thể hiện hiện tượng overfitting, tức mô hình đang học cách nhận ra đầu vào chỉ từ một hoặc hai ví dụ.
  • Các tác giả đã tiến hành thí nghiệm với nhiều lịch learning rate khác nhau và quan sát thấy mô hình học cách nhanh chóng nhận ra ví dụ ngay cả khi chỉ nhìn thấy chúng một lần.
  • Các tác giả cho rằng các mô hình ngôn ngữ lớn đã được tiền huấn luyện có thể sở hữu một bề mặt loss rất trơn trong vùng gần mức loss tối thiểu, nhờ đó chúng có thể học rất nhanh từ một ví dụ duy nhất.
  • Khả năng học nhanh này có thể thách thức các phương pháp huấn luyện truyền thống, đồng thời làm trầm trọng thêm vấn đề quên thảm họa, khi mô hình quên thông tin đã học trước đó mỗi khi thông tin mới được đưa vào.
  • Các tác giả đề xuất một số chiến lược giảm thiểu có thể áp dụng, chẳng hạn tăng sử dụng các kỹ thuật như dropout hoặc stochastic depth, hoặc dùng hỗn hợp nhiều tập dữ liệu khác nhau trong quá trình huấn luyện.
  • Các tác giả cũng kêu gọi thêm nhiều nghiên cứu và các giả thuyết thay thế để hiểu rõ hơn hiện tượng này cũng như tác động của nó đối với việc huấn luyện và sử dụng LLM.

1 bình luận

 
GN⁺ 2023-09-07
Ý kiến trên Hacker News
  • Thảo luận về bài viết nói về khả năng ghi nhớ nhanh đáng kinh ngạc của các mô hình ngôn ngữ lớn (Large Language Models, LLMs) chỉ từ một ví dụ duy nhất
  • Một trong các tác giả của bài đăng cho biết sau 30 năm làm việc với mạng nơ-ron, đây là hành vi khiến ông ngạc nhiên nhất
  • Một số độc giả cho rằng thuật ngữ "quá tự tin" được dùng trong bài viết dễ gây hiểu nhầm, và "quá khớp" hoặc "chưa được xác định" sẽ chính xác hơn
  • Xét đến hàng chục tỷ tham số trong các mô hình sinh, từ góc nhìn học máy (Machine Learning, ML) thông thường thì hiện tượng LLMs học nhanh từ một ví dụ duy nhất không phải là điều đáng ngạc nhiên
  • Thảo luận về ý nghĩa của việc phần lớn LLMs chỉ được huấn luyện với đúng một epoch, qua đó đặt ra vấn đề quá khớp
  • Một người dùng chia sẻ trải nghiệm cá nhân với ChatGPT, nhấn mạnh rằng việc LLM cung cấp tư liệu cho những câu hỏi mà nó chưa được huấn luyện đã giúp giải quyết vấn đề
  • Một số độc giả đặt câu hỏi liệu LLMs có được dùng để tăng cường dữ liệu huấn luyện của chính chúng hay không, và đề xuất ý tưởng thêm dữ liệu đầu vào tổng hợp hoặc "mơ" vào tập huấn luyện
  • Tranh luận về tiêu đề bài viết: một số độc giả tin rằng học từ một ví dụ duy nhất là điều đáng mong muốn, nhưng ghi nhớ thì không, nên họ cho rằng tiêu đề gây hiểu nhầm
  • Một số người dùng chia sẻ rằng họ từng thấy đường cong mất mát tương tự khi huấn luyện Vision Transformers (ViTs), và cho rằng các đường cong mất mát kỳ lạ như vậy có thể là đặc trưng của các mô hình dựa trên Transformer
  • Gợi ý các công trình liên quan khác cho những ai quan tâm đến chủ đề này, như "Mass-Editing Memory in a Transformer" và "Locating and Editing Factual Associations in GPT"
  • Nếu phát hiện của bài viết là đúng, điều đó có thể ủng hộ ý tưởng rằng các bộ dữ liệu nhỏ do con người quản lý có giá trị hơn các bộ dữ liệu tổng hợp do LLMs tạo ra