Năm 2023 là năm của các LLM mở

xguru · 2023-12-21T10:33:04+09:00

Mối quan tâm của công chúng đối với các mô hình ngôn ngữ lớn (LLM) gia tăng, đồng thời các cuộc thảo luận về mã nguồn mở và mã nguồn đóng cũng lan rộng Công thức cho Pretrained LLM Kiến trúc mô hình: mô tả cách triển khai cụ thể và dạng toán học Bộ dữ liệu huấn luyện: bao gồm các ví dụ và tài liệu mà mô hình học từ đó Tokenizer: định nghĩa cách chuyển đổi văn bản thành số Siêu tham số huấn luyện: định nghĩa cách huấn luyện mô hình Cần sức mạnh tính toán và sự giám sát của chuyên gia Trọng số của mô hình đã được huấn luyện trước được dùng cho suy luận Năm 2022, từ cuộc đua kích thước sang cuộc đua dữ liệu Cho đến đầu năm 2022, kích thước mô hình là yếu tố quan trọng đối với hiệu năng Các mô hình như BLOOM, OPT, GLM-130B được phát hành Nghiên cứu mới của DeepMind nhấn mạnh tầm quan trọng của quy mô dữ liệu, tạo ra sự chuyển dịch mô hình Năm 2023, năm của các bản phát hành mở Sự trỗi dậy của các LLM nhỏ: tháng 2 có LLaMA (Meta), tháng 4 có Pythia (Eleuther AI), tháng 5 có MPT (MosaicML), tháng 6 có X-GEN (Salesforce), Falcon (TIIUAE), tháng 7 có Llama 2 (Meta). Tháng 9 có Qwen (Alibaba) và Mistral (Mistral.AI), tháng 11 có Yi (01-ai), tháng 12 có DeciLM (Deci), Phi-2 (Microsoft) và SOLAR (Upstage) Có kèm theo trọng số mô hình và cho thấy hiệu năng tốt ở phía các mô hình nhỏ nên được cộng đồng nhanh chóng tiếp nhận Khác biệt cốt lõi nằm ở dữ liệu huấn luyện và giấy phép mô hình Sự xuất hiện của các mô hình hội thoại Trong năm 2023, phần lớn các mô hình được huấn luyện trước đều được phát hành cùng phiên bản hội thoại Sử dụng các phương pháp như fine-tuning dựa trên chat, instruction fine-tuning, học tăng cường từ phản hồi của con người (RLHF), DPO (Direct Preference Optimzation) Các phiên bản hội thoại của MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM đã được phát hành Vai trò của cộng đồng Cộng đồng và các nhà nghiên cứu đã tận dụng các mô hình nền tảng được cung cấp để phát triển bộ dữ liệu mới và các mô hình fine-tuning Nhiều bộ dữ liệu và chiến lược fine-tuning khác nhau đã được phát hành Human Preference: bộ dữ liệu WebGPT của OpenAI, bộ dữ liệu HH-RLHF (Anthropic) và Summarize (OpenAI) Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. Dân chủ hóa khả năng tiếp cận Trộn mô hình/dữ liệu: kết hợp trọng số của các mô hình để tích hợp điểm mạnh PEFT: có thể fine-tuning mà không cần sử dụng toàn bộ mô hình Lượng tử hóa: kỹ thuật giảm kích thước mô hình, giúp nhiều người hơn có thể sử dụng LLM Tiếp theo là gì? Sự xuất hiện của các kiến trúc mới vượt qua Transformer và cải thiện hiệu năng Phát hành các mô hình mới như Mixtral, Mamba, Striped Hyena

(huggingface.co)

19 điểm bởi xguru 2023-12-21 | 1 bình luận | Chia sẻ qua WhatsApp

Mối quan tâm của công chúng đối với các mô hình ngôn ngữ lớn (LLM) gia tăng, đồng thời các cuộc thảo luận về mã nguồn mở và mã nguồn đóng cũng lan rộng

Công thức cho Pretrained LLM

Kiến trúc mô hình: mô tả cách triển khai cụ thể và dạng toán học
Bộ dữ liệu huấn luyện: bao gồm các ví dụ và tài liệu mà mô hình học từ đó
Tokenizer: định nghĩa cách chuyển đổi văn bản thành số
Siêu tham số huấn luyện: định nghĩa cách huấn luyện mô hình
Cần sức mạnh tính toán và sự giám sát của chuyên gia
Trọng số của mô hình đã được huấn luyện trước được dùng cho suy luận

Năm 2022, từ cuộc đua kích thước sang cuộc đua dữ liệu

Cho đến đầu năm 2022, kích thước mô hình là yếu tố quan trọng đối với hiệu năng
Các mô hình như BLOOM, OPT, GLM-130B được phát hành
Nghiên cứu mới của DeepMind nhấn mạnh tầm quan trọng của quy mô dữ liệu, tạo ra sự chuyển dịch mô hình

Năm 2023, năm của các bản phát hành mở

Sự trỗi dậy của các LLM nhỏ: tháng 2 có LLaMA (Meta), tháng 4 có Pythia (Eleuther AI), tháng 5 có MPT (MosaicML), tháng 6 có X-GEN (Salesforce), Falcon (TIIUAE), tháng 7 có Llama 2 (Meta). Tháng 9 có Qwen (Alibaba) và Mistral (Mistral.AI), tháng 11 có Yi (01-ai), tháng 12 có DeciLM (Deci), Phi-2 (Microsoft) và SOLAR (Upstage)
Có kèm theo trọng số mô hình và cho thấy hiệu năng tốt ở phía các mô hình nhỏ nên được cộng đồng nhanh chóng tiếp nhận
Khác biệt cốt lõi nằm ở dữ liệu huấn luyện và giấy phép mô hình

Sự xuất hiện của các mô hình hội thoại

Trong năm 2023, phần lớn các mô hình được huấn luyện trước đều được phát hành cùng phiên bản hội thoại
Sử dụng các phương pháp như fine-tuning dựa trên chat, instruction fine-tuning, học tăng cường từ phản hồi của con người (RLHF), DPO (Direct Preference Optimzation)
Các phiên bản hội thoại của MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM đã được phát hành

Vai trò của cộng đồng

Cộng đồng và các nhà nghiên cứu đã tận dụng các mô hình nền tảng được cung cấp để phát triển bộ dữ liệu mới và các mô hình fine-tuning
Nhiều bộ dữ liệu và chiến lược fine-tuning khác nhau đã được phát hành
- Human Preference: bộ dữ liệu WebGPT của OpenAI, bộ dữ liệu HH-RLHF (Anthropic) và Summarize (OpenAI)
- Instruction: Public Pool of Prompts by BigScience, FLAN 1 and 2 by Google, Natural Instructions by AllenAI, Self Instruct, SuperNatural instructions, Unnatural instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Dân chủ hóa khả năng tiếp cận

Trộn mô hình/dữ liệu: kết hợp trọng số của các mô hình để tích hợp điểm mạnh
PEFT: có thể fine-tuning mà không cần sử dụng toàn bộ mô hình
Lượng tử hóa: kỹ thuật giảm kích thước mô hình, giúp nhiều người hơn có thể sử dụng LLM

Tiếp theo là gì?

Sự xuất hiện của các kiến trúc mới vượt qua Transformer và cải thiện hiệu năng
Phát hành các mô hình mới như Mixtral, Mamba, Striped Hyena

1 bình luận

laeyoung 2023-12-22

Đúng là đã có rất nhiều mô hình mã nguồn mở tốt xuất hiện nên cũng rất đáng mừng. LLaMA thì khỏi nói, rồi cả những mô hình mã nguồn mở được cung cấp để có thể chạy ngay trên Web nữa, tôi cũng đã tải về thử đủ thứ khá nhiều. Nhưng trớ trêu là những thứ tôi thực sự dùng và đang dùng trong đời sống hằng ngày thì lại chỉ có ChatGPT hoặc các dịch vụ kiểu SaaS mang GPT-4 ra cung cấp mà thôi. Mô hình mã nguồn mở tất nhiên rất quan trọng, nhưng rồi tôi cũng nghĩ rằng nếu không có hạ tầng để vận hành ổn định, cùng với những nhà tài trợ tài chính có thể hỗ trợ nó một cách bền vững, thì sẽ rất khó.