3 điểm bởi GN⁺ 2023-09-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết về những khó khăn trong việc triển khai các mô hình ngôn ngữ lớn (Large Language Models, LLMs): do kích thước và yêu cầu tính toán, nhiều nhóm nghiên cứu, đặc biệt là các ứng dụng cần hiệu năng độ trễ thấp, rất khó tiếp cận
  • Để vượt qua những thách thức này, các mô hình chuyên biệt nhỏ được huấn luyện bằng tinh chỉnh hoặc chưng cất thường được triển khai. Tuy nhiên, các phương pháp này cũng có những hạn chế riêng, chẳng hạn cần nhãn do con người tạo ra hoặc lượng lớn dữ liệu không gắn nhãn
  • Các tác giả giới thiệu một cơ chế mới gọi là "chưng cất từng bước", cho phép huấn luyện các mô hình nhỏ theo từng tác vụ với lượng dữ liệu huấn luyện ít hơn nhiều so với mức mà các phương pháp tinh chỉnh hay chưng cất tiêu chuẩn yêu cầu
  • Cơ chế này giúp một mô hình T5 770M tham số vượt qua mô hình PaLM 540B được prompt few-shot chỉ với 80% số ví dụ của bộ dữ liệu benchmark, đồng thời cho thấy khả năng giảm kích thước mô hình hơn 700 lần với lượng dữ liệu huấn luyện ít hơn rất nhiều so với các cách tiếp cận tiêu chuẩn
  • Ý tưởng cốt lõi của chưng cất từng bước là trích xuất các lập luận bằng ngôn ngữ tự nhiên giàu thông tin từ LLMs và dùng chúng để huấn luyện mô hình nhỏ hiệu quả hơn
  • Quy trình này gồm hai giai đoạn chính: thứ nhất, trích xuất các lập luận từ LLMs bằng prompt CoT few-shot; thứ hai, tổ chức quá trình huấn luyện như một bài toán đa nhiệm để đưa các lập luận vào việc huấn luyện mô hình nhỏ
  • Các tác giả đã tiến hành thí nghiệm trên bốn bộ dữ liệu benchmark thuộc ba tác vụ NLP khác nhau và nhận thấy phương pháp chưng cất từng bước đạt hiệu năng tốt hơn so với tinh chỉnh tiêu chuẩn trong khi dùng ít dữ liệu huấn luyện hơn nhiều
  • Cơ chế chưng cất từng bước hiện có sẵn dưới dạng bản xem trước riêng tư trên Vertex AI, nền tảng đám mây của Google Cloud
  • Nghiên cứu này được thực hiện bởi Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee và Tomas Pfister.

1 bình luận

 
GN⁺ 2023-09-24
Ý kiến Hacker News
  • Dự kiến các mô hình chuyên biệt nhỏ hơn sẽ chiếm ưu thế trong phần lớn ứng dụng nhờ sự cân bằng tối ưu giữa kích thước và tính hữu dụng.
  • Các mô hình distilled dùng T5 cho thấy kiến trúc encoder-decoder vẫn có thể còn phù hợp.
  • Cách tiếp cận này không quá phức tạp, cho thấy vẫn còn rất nhiều điều cần được khám phá trong lĩnh vực Large Language Models (LLMs).
  • Tương lai của LLMs có thể bao gồm sự pha trộn của các mô hình chuyên biệt được huấn luyện theo phong cách này.
  • Mức độ hoạt động và tiến bộ trong các lĩnh vực LLM, Machine Learning (ML) và Artificial Intelligence (AI) là rất ấn tượng.
  • Khi phần cứng như Nvidia có giá đắt đỏ, các tối ưu hóa như vậy là rất đáng giá.
  • Những mô hình hiệu quả nhất có khả năng sẽ là multimodal và được huấn luyện bằng một chương trình giảng dạy cốt lõi được tùy chỉnh cẩn thận.
  • Có câu hỏi vì sao dữ liệu huấn luyện của LLM lại ít hơn các mô hình distilled và mô hình theo từng tác vụ.
  • Có suy đoán rằng Reinforcement Learning from Human Feedback (RLHF) có thể sẽ cần thiết cho các mô hình nhỏ hơn để hoạt động tốt ngang với các LLM tiên tiến nhất.
  • Vẫn chưa rõ liệu nhiều năng lực trong các LLM lớn có không được sử dụng, hay các mô hình ngôn ngữ nhỏ chỉ đơn thuần bắt chước các tác vụ suy luận.
  • Mac Studio hỗ trợ tới 144GB bộ nhớ GPU khả dụng có thể được sử dụng trong không gian dịch vụ LLM.
  • Có ý kiến cho rằng Facebook có thể huấn luyện LLM trên toàn bộ lịch sử trò chuyện của người dùng.