5 điểm bởi xguru 2024-04-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Gần đây, cộng đồng mã nguồn mở đã liên tục cho ra mắt các mô hình quy mô lớn với hơn 100 tỷ tham số, cho thấy hiệu năng ấn tượng trong các bài đánh giá benchmark và lĩnh vực chatbot
  • Alibaba cũng đã công bố Qwen1.5-110B, mô hình 100B+ đầu tiên trong dòng Qwen1.5
  • Trong đánh giá mô hình nền tảng, mô hình này đạt hiệu năng có thể sánh ngang Meta-Llama3-70B, đồng thời cho thấy kết quả nổi bật trong các đánh giá chat bao gồm MT-Bench và AlpacaEval 2.0

Đặc điểm của mô hình Qwen1.5-110B

  • Qwen1.5-110B tương tự các mô hình Qwen1.5 khác và được xây dựng trên cùng kiến trúc Transformer decoder
  • Mô hình được cấu thành với Grouped Query Attention (GQA), giúp phục vụ mô hình hiệu quả hơn
  • Hỗ trợ độ dài ngữ cảnh 32K token và là mô hình đa ngôn ngữ hỗ trợ nhiều ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Nga, tiếng Hàn, tiếng Nhật, tiếng Việt, tiếng Ả Rập...

Kết quả đánh giá mô hình ngôn ngữ nền tảng

  • Đã thực hiện một loạt đánh giá đối với mô hình ngôn ngữ nền tảng và so sánh với các mô hình ngôn ngữ SOTA gần đây như Meta-Llama3-70B và Mixtral-8x22B
  • Theo kết quả, mô hình 110B mới ít nhất có năng lực cạnh tranh với Llama-3-70B về năng lực cơ bản
  • Do recipe tiền huấn luyện và hậu huấn luyện của mô hình này không bị thay đổi đột ngột, mức cải thiện hiệu năng so với 72B dường như đến từ việc tăng kích thước mô hình

Kết quả đánh giá mô hình chat

  • Mô hình chat đã được thử nghiệm trên MT-Bench và AlpacaEval 2.0
  • So với mô hình 72B đã được công bố trước đó, 110B cho thấy hiệu năng vượt trội rõ rệt trên cả hai benchmark
  • Sự cải thiện nhất quán trong đánh giá cho thấy ngay cả khi không thay đổi lớn recipe hậu huấn luyện, một mô hình ngôn ngữ nền tảng lớn hơn và mạnh hơn vẫn có thể dẫn đến mô hình chat tốt hơn

Phát triển với Qwen1.5-110B

  • Để tìm hiểu cách sử dụng với Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory..., nên đọc blog Qwen1.5

Kết luận

  • Qwen1.5-110B là mô hình lớn nhất trong dòng Qwen1.5 và là mô hình đầu tiên trong dòng có hơn 100 tỷ tham số
  • Mô hình này cho thấy hiệu năng cạnh tranh với Llama-3-70B, một mô hình SOTA được công bố gần đây, đồng thời vượt trội đáng kể so với mô hình 72B
  • Điều này cho thấy việc mở rộng kích thước mô hình vẫn còn rất nhiều tiềm năng để đạt hiệu năng tốt hơn
  • Việc công bố Llama-3 cho thấy tầm quan trọng của việc mở rộng dữ liệu lên quy mô cực lớn, nhưng cũng tin rằng trong các lần công bố sau, có thể vừa mở rộng dữ liệu vừa mở rộng kích thước mô hình để tận dụng lợi thế của cả hai thế giới