Qwen1.5-110B: mô hình 100B+ đầu tiên trong dòng LLM mã nguồn mở Qwen1.5 của Alibaba

xguru · 2024-04-28T09:30:03+09:00

Gần đây, cộng đồng mã nguồn mở đã liên tục cho ra mắt các mô hình quy mô lớn với hơn 100 tỷ tham số, cho thấy hiệu năng ấn tượng trong các bài đánh giá benchmark và lĩnh vực chatbot Alibaba cũng đã công bố Qwen1.5-110B, mô hình 100B+ đầu tiên trong dòng Qwen1.5 Trong đánh giá mô hình nền tảng, mô hình này đạt hiệu năng có thể sánh ngang Meta-Llama3-70B, đồng thời cho thấy kết quả nổi bật trong các đánh giá chat bao gồm MT-Bench và AlpacaEval 2.0 Đặc điểm của mô hình Qwen1.5-110B Qwen1.5-110B tương tự các mô hình Qwen1.5 khác và được xây dựng trên cùng kiến trúc Transformer decoder Mô hình được cấu thành với Grouped Query Attention (GQA), giúp phục vụ mô hình hiệu quả hơn Hỗ trợ độ dài ngữ cảnh 32K token và là mô hình đa ngôn ngữ hỗ trợ nhiều ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Nga, tiếng Hàn, tiếng Nhật, tiếng Việt, tiếng Ả Rập... Kết quả đánh giá mô hình ngôn ngữ nền tảng Đã thực hiện một loạt đánh giá đối với mô hình ngôn ngữ nền tảng và so sánh với các mô hình ngôn ngữ SOTA gần đây như Meta-Llama3-70B và Mixtral-8x22B Theo kết quả, mô hình 110B mới ít nhất có năng lực cạnh tranh với Llama-3-70B về năng lực cơ bản Do recipe tiền huấn luyện và hậu huấn luyện của mô hình này không bị thay đổi đột ngột, mức cải thiện hiệu năng so với 72B dường như đến từ việc tăng kích thước mô hình Kết quả đánh giá mô hình chat Mô hình chat đã được thử nghiệm trên MT-Bench và AlpacaEval 2.0 So với mô hình 72B đã được công bố trước đó, 110B cho thấy hiệu năng vượt trội rõ rệt trên cả hai benchmark Sự cải thiện nhất quán trong đánh giá cho thấy ngay cả khi không thay đổi lớn recipe hậu huấn luyện, một mô hình ngôn ngữ nền tảng lớn hơn và mạnh hơn vẫn có thể dẫn đến mô hình chat tốt hơn Phát triển với Qwen1.5-110B Để tìm hiểu cách sử dụng với Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory..., nên đọc blog Qwen1.5 Kết luận Qwen1.5-110B là mô hình lớn nhất trong dòng Qwen1.5 và là mô hình đầu tiên trong dòng có hơn 100 tỷ tham số Mô hình này cho thấy hiệu năng cạnh tranh với Llama-3-70B, một mô hình SOTA được công bố gần đây, đồng thời vượt trội đáng kể so với mô hình 72B Điều này cho thấy việc mở rộng kích thước mô hình vẫn còn rất nhiều tiềm năng để đạt hiệu năng tốt hơn Việc công bố Llama-3 cho thấy tầm quan trọng của việc mở rộng dữ liệu lên quy mô cực lớn, nhưng cũng tin rằng trong các lần công bố sau, có thể vừa mở rộng dữ liệu vừa mở rộng kích thước mô hình để tận dụng lợi thế của cả hai thế giới

(qwenlm.github.io)

5 điểm bởi xguru 2024-04-28 | 1 bình luận | Chia sẻ qua WhatsApp

Gần đây, cộng đồng mã nguồn mở đã liên tục cho ra mắt các mô hình quy mô lớn với hơn 100 tỷ tham số, cho thấy hiệu năng ấn tượng trong các bài đánh giá benchmark và lĩnh vực chatbot
Alibaba cũng đã công bố Qwen1.5-110B, mô hình 100B+ đầu tiên trong dòng Qwen1.5
Trong đánh giá mô hình nền tảng, mô hình này đạt hiệu năng có thể sánh ngang Meta-Llama3-70B, đồng thời cho thấy kết quả nổi bật trong các đánh giá chat bao gồm MT-Bench và AlpacaEval 2.0

Đặc điểm của mô hình Qwen1.5-110B

Qwen1.5-110B tương tự các mô hình Qwen1.5 khác và được xây dựng trên cùng kiến trúc Transformer decoder
Mô hình được cấu thành với Grouped Query Attention (GQA), giúp phục vụ mô hình hiệu quả hơn
Hỗ trợ độ dài ngữ cảnh 32K token và là mô hình đa ngôn ngữ hỗ trợ nhiều ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Nga, tiếng Hàn, tiếng Nhật, tiếng Việt, tiếng Ả Rập...

Kết quả đánh giá mô hình ngôn ngữ nền tảng

Đã thực hiện một loạt đánh giá đối với mô hình ngôn ngữ nền tảng và so sánh với các mô hình ngôn ngữ SOTA gần đây như Meta-Llama3-70B và Mixtral-8x22B
Theo kết quả, mô hình 110B mới ít nhất có năng lực cạnh tranh với Llama-3-70B về năng lực cơ bản
Do recipe tiền huấn luyện và hậu huấn luyện của mô hình này không bị thay đổi đột ngột, mức cải thiện hiệu năng so với 72B dường như đến từ việc tăng kích thước mô hình

Kết quả đánh giá mô hình chat

Mô hình chat đã được thử nghiệm trên MT-Bench và AlpacaEval 2.0
So với mô hình 72B đã được công bố trước đó, 110B cho thấy hiệu năng vượt trội rõ rệt trên cả hai benchmark
Sự cải thiện nhất quán trong đánh giá cho thấy ngay cả khi không thay đổi lớn recipe hậu huấn luyện, một mô hình ngôn ngữ nền tảng lớn hơn và mạnh hơn vẫn có thể dẫn đến mô hình chat tốt hơn

Phát triển với Qwen1.5-110B

Để tìm hiểu cách sử dụng với Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory..., nên đọc blog Qwen1.5

Kết luận

Qwen1.5-110B là mô hình lớn nhất trong dòng Qwen1.5 và là mô hình đầu tiên trong dòng có hơn 100 tỷ tham số
Mô hình này cho thấy hiệu năng cạnh tranh với Llama-3-70B, một mô hình SOTA được công bố gần đây, đồng thời vượt trội đáng kể so với mô hình 72B
Điều này cho thấy việc mở rộng kích thước mô hình vẫn còn rất nhiều tiềm năng để đạt hiệu năng tốt hơn
Việc công bố Llama-3 cho thấy tầm quan trọng của việc mở rộng dữ liệu lên quy mô cực lớn, nhưng cũng tin rằng trong các lần công bố sau, có thể vừa mở rộng dữ liệu vừa mở rộng kích thước mô hình để tận dụng lợi thế của cả hai thế giới

1 bình luận

xguru 2024-04-28

Alibaba, công bố mô hình AI mã nguồn mở QWEN