- Qwen2.5-Max là mô hình Mixture-of-Experts (MoE) quy mô lớn được tiền huấn luyện với hơn 20 nghìn tỷ (20T) token
- Tiếp tục được huấn luyện hậu kỳ thông qua Supervised Fine-Tuning (SFT) và Reinforcement Learning from Human Feedback (RLHF)
- Thể hiện hiệu năng vượt trội và chiếm ưu thế trên phần lớn các benchmark khi so sánh với DeepSeek V3, GPT-4o, Claude-3.5-Sonnet, Llama-3.1-405B, v.v.
- Vượt DeepSeek V3 trên Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond, đồng thời cho kết quả cạnh tranh trên MMLU-Pro.
Kết quả benchmark chính
- Arena-Hard: đánh giá xấp xỉ mức độ ưa thích của con người
Qwen2.5-Max đạt 89.4 điểm, cho thấy hiệu năng cao nhất. Vượt DeepSeek V3 (85.5 điểm), GPT-4o (85.2 điểm), Claude-3.5-Sonnet (77.9 điểm). Llama-3.1-405B đạt 69.3 điểm, cho hiệu năng tương đối thấp hơn.
- MMLU-Pro: đánh giá kiến thức ở trình độ đại học
Qwen2.5-Max đạt 76.1 điểm, cho hiệu năng gần như ngang với DeepSeek V3 (75.9 điểm). GPT-4o (78.0 điểm) nhỉnh hơn một chút, nhưng Qwen2.5-Max vẫn vượt Claude-3.5-Sonnet (77.0 điểm) và Llama-3.1-405B (73.3 điểm).
- GPQA-Diamond: đánh giá năng lực hỏi đáp tổng quát
Qwen2.5-Max đạt 60.1 điểm, nhỉnh hơn một chút so với DeepSeek V3 (59.1 điểm), nhưng thấp hơn đôi chút so với GPT-4o (53.6 điểm), Claude-3.5-Sonnet (51.1 điểm), Llama-3.1-405B (65.0 điểm).
- LiveCodeBench: đánh giá năng lực lập trình
Qwen2.5-Max đạt 38.7 điểm, cao hơn một chút so với DeepSeek V3 (37.6 điểm). Mức điểm này tương đương với GPT-4o (35.1 điểm), Claude-3.5-Sonnet (30.2 điểm) và Llama-3.1-405B (38.9 điểm).
- LiveBench: đánh giá hiệu năng tổng thể của mô hình
Qwen2.5-Max đạt 62.2 điểm, là số điểm cao nhất. Hiệu năng vượt DeepSeek V3 (60.5 điểm), GPT-4o (60.3 điểm), Claude-3.5-Sonnet (56.0 điểm), Llama-3.1-405B (53.2 điểm).
Định hướng tương lai
- Việc mở rộng dữ liệu và kích thước mô hình cho thấy sự tiến bộ của trí tuệ mô hình, đồng thời nhóm đang tập trung nghiên cứu nhằm nâng cao năng lực tư duy và suy luận của các mô hình ngôn ngữ lớn
- Thông qua việc ứng dụng đổi mới của reinforcement learning, mở ra khả năng phát triển các mô hình vượt qua trí tuệ con người và khám phá những miền tri thức và hiểu biết mới
1 bình luận
2023-08-03 Alibaba công bố mô hình AI mã nguồn mở QWEN
2024-04-25 Qwen1.5-110B : mô hình 100B+ đầu tiên trong dòng LLM mã nguồn mở Qwen1.5 của Alibaba
2024-06-07 Alibaba công bố mô hình Qwen 2
2024-09-19 Qwen2.5 - công bố nhiều mô hình nền tảng
2024-11-28 QwQ - LLM suy luận của Alibaba tương tự ChatGPT o1
2024-12-24 Trải nghiệm sử dụng QvQ, mô hình suy luận thị giác mới của Qwen
2025-01-27 Qwen2.5-1M - tự triển khai Qwen với hỗ trợ lên tới 1 triệu token
Trong lúc DeepSeek đang tạo nên cơn sốt, Qwen cũng liên tục tung ra những kết quả ấn tượng với tốc độ gần như mỗi ngày một bản.
Các công ty Trung Quốc thật đáng gờm.