- Bài viết về những khó khăn trong việc triển khai các mô hình ngôn ngữ lớn (Large Language Models, LLMs): do kích thước và yêu cầu tính toán, nhiều nhóm nghiên cứu, đặc biệt là các ứng dụng cần hiệu năng độ trễ thấp, rất khó tiếp cận
- Để vượt qua những thách thức này, các mô hình chuyên biệt nhỏ được huấn luyện bằng tinh chỉnh hoặc chưng cất thường được triển khai. Tuy nhiên, các phương pháp này cũng có những hạn chế riêng, chẳng hạn cần nhãn do con người tạo ra hoặc lượng lớn dữ liệu không gắn nhãn
- Các tác giả giới thiệu một cơ chế mới gọi là "chưng cất từng bước", cho phép huấn luyện các mô hình nhỏ theo từng tác vụ với lượng dữ liệu huấn luyện ít hơn nhiều so với mức mà các phương pháp tinh chỉnh hay chưng cất tiêu chuẩn yêu cầu
- Cơ chế này giúp một mô hình T5 770M tham số vượt qua mô hình PaLM 540B được prompt few-shot chỉ với 80% số ví dụ của bộ dữ liệu benchmark, đồng thời cho thấy khả năng giảm kích thước mô hình hơn 700 lần với lượng dữ liệu huấn luyện ít hơn rất nhiều so với các cách tiếp cận tiêu chuẩn
- Ý tưởng cốt lõi của chưng cất từng bước là trích xuất các lập luận bằng ngôn ngữ tự nhiên giàu thông tin từ LLMs và dùng chúng để huấn luyện mô hình nhỏ hiệu quả hơn
- Quy trình này gồm hai giai đoạn chính: thứ nhất, trích xuất các lập luận từ LLMs bằng prompt CoT few-shot; thứ hai, tổ chức quá trình huấn luyện như một bài toán đa nhiệm để đưa các lập luận vào việc huấn luyện mô hình nhỏ
- Các tác giả đã tiến hành thí nghiệm trên bốn bộ dữ liệu benchmark thuộc ba tác vụ NLP khác nhau và nhận thấy phương pháp chưng cất từng bước đạt hiệu năng tốt hơn so với tinh chỉnh tiêu chuẩn trong khi dùng ít dữ liệu huấn luyện hơn nhiều
- Cơ chế chưng cất từng bước hiện có sẵn dưới dạng bản xem trước riêng tư trên Vertex AI, nền tảng đám mây của Google Cloud
- Nghiên cứu này được thực hiện bởi Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee và Tomas Pfister.
1 bình luận
Ý kiến Hacker News