Qwen2.5-Max: Khám phá trí tuệ của mô hình MoE quy mô lớn

(qwenlm.github.io)

1 điểm bởi GN⁺ 2025-01-29 | 2 bình luận | Chia sẻ qua WhatsApp

Qwen2.5-Max là một mô hình MoE quy mô lớn được tiền huấn luyện trên hơn 20 nghìn tỷ token, sau đó tiếp tục hậu huấn luyện bằng SFT và RLHF, và đã được công bố trên Alibaba Cloud API cùng Qwen Chat
Đánh giá bao gồm MMLU-Pro, LiveCodeBench, LiveBench và Arena-Hard; mô hình instruct được so sánh tập trung vào các tác vụ downstream thực tế như trò chuyện và lập trình
Qwen2.5-Max vượt DeepSeek V3 trên Arena-Hard, LiveBench, LiveCodeBench và GPQA-Diamond, đồng thời cho kết quả cạnh tranh trên cả MMLU-Pro và các đánh giá khác
Trong so sánh mô hình base, do không thể truy cập trực tiếp GPT-4o và Claude-3.5-Sonnet, các đối tượng so sánh là DeepSeek V3, Llama-3.1-405B và Qwen2.5-72B
Tên model API là qwen-max-2025-01-25 và sử dụng kiểu tương thích OpenAI API, nên có thể tận dụng luồng gọi dựa trên các client OpenAI hiện có

Quy mô mô hình và kết quả benchmark

Qwen2.5-Max là một mô hình MoE quy mô lớn được phát triển dựa trên giả định rằng việc mở rộng kích thước dữ liệu và kích thước mô hình có thể dẫn đến cải thiện trí tuệ của mô hình
Mô hình được tiền huấn luyện trên hơn 20 nghìn tỷ token, sau đó được hậu huấn luyện bằng Supervised Fine-Tuning (SFT) và Reinforcement Learning from Human Feedback (RLHF) đã được tuyển chọn
Đánh giá hiệu năng sử dụng đồng thời các benchmark chính về tri thức, lập trình và năng lực tổng hợp
- MMLU-Pro: đánh giá kiến thức qua các bài toán trình độ đại học
- LiveCodeBench: đánh giá năng lực lập trình
- LiveBench: đánh giá tổng hợp năng lực chung
- Arena-Hard: đánh giá gần với mức độ ưa thích của con người
Mô hình instruct được so sánh cùng Qwen2.5-Max, DeepSeek V3, GPT-4o và Claude-3.5-Sonnet
- Qwen2.5-Max vượt DeepSeek V3 trên Arena-Hard, LiveBench, LiveCodeBench và GPQA-Diamond
- Trên các đánh giá khác, bao gồm cả MMLU-Pro, mô hình cũng cho thấy kết quả cạnh tranh
Trong so sánh mô hình base, do không thể truy cập các mô hình độc quyền như GPT-4o và Claude-3.5-Sonnet, việc đánh giá được thực hiện chủ yếu trên các mô hình open-weight
- Các đối tượng so sánh là DeepSeek V3, Llama-3.1-405B và Qwen2.5-72B
- Mô hình base Qwen2.5-Max cho thấy ưu thế có ý nghĩa trên phần lớn các benchmark
Các phiên bản trong tương lai hướng tới hiệu năng cao hơn thông qua việc cải thiện kỹ thuật hậu huấn luyện

Sử dụng API và các nhiệm vụ tiếp theo

Qwen2.5-Max có thể được sử dụng trên Qwen Chat, nơi người dùng có thể trò chuyện trực tiếp hoặc dùng artifacts, search, v.v.
API được cung cấp thông qua Alibaba Cloud
- Tên model là qwen-max-2025-01-25
- Có thể đăng ký tài khoản Alibaba Cloud, kích hoạt dịch vụ Model Studio, rồi tạo API key trong console
Qwen API có dạng tương thích OpenAI API, nên có thể gọi bằng client OpenAI

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Công việc tiếp theo tập trung vào việc áp dụng học tăng cường mở rộng để nâng cao năng lực tư duy và suy luận của mô hình ngôn ngữ lớn
Thông tin trích dẫn liên quan đến Qwen2.5 là preprint arXiv Qwen2.5 technical report arXiv:2412.15115

2 bình luận

GN⁺ 2025-01-29

Ý kiến trên Hacker News

Họ nói việc DeepSeek V3 được công bố gần đây đã cho thấy những chi tiết cốt lõi của quá trình scaling hữu ích đến mức nào, nhưng rồi lại không công khai thông tin huấn luyện của chính mình
Nếu đây là API đóng và cũng không có thêm thông tin nào, thì chẳng mấy quan tâm đến tuyên bố là đã “gần tiệm cận o1”
- Thậm chí cũng không phải là “gần tiệm cận o1”. Đối tượng so sánh chỉ là 4o cũ hơn
  Có thể xem như Qwen2.5-Max sẽ đạt điểm thấp hơn các mô hình suy luận gần đây (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking)
  Nếu áp dụng reinforcement learning cho suy luận thì có thể nó sẽ trở thành một mô hình rất mạnh, nhưng vì các công thức đã thành công đều không được công khai nên có thể sẽ mất thời gian. Trong lúc đó, vẫn có thể làm tinh chỉnh có giám sát (SFT) dựa trên chuỗi suy luận của mô hình khác, nhưng báo cáo kỹ thuật của DeepSeek-R1 cũng nói rằng cách này không tốt bằng reinforcement learning
Tôi tưởng trên trang đầu HN có ba mục về DeepSeek, hóa ra là mục thứ tư. Vì đó là bài viết nói rằng đội Qwen có một phiên bản Qwen bí mật tốt hơn DeepSeek-V3
Tôi không nhớ lần gần nhất 20% trang đầu HN nói về cùng một chủ đề là khi nào. Tất nhiên, tôi cũng không nhớ tiền lệ nào về một công ty mất 569 tỷ USD vốn hóa thị trường chỉ trong một ngày như NVIDIA hôm qua
- Tôi đã bỏ sót việc 4 ÷ 30 không phải là 20%. Thực ra nó gần 13% hơn. Một lỗi ngớ ngẩn
Demo trên HuggingFace: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Nguồn: https://x.com/Alibaba_Qwen/status/1884263157574820053
Khá bất ngờ khi một công ty Trung Quốc công bố thứ này vào đêm trước Tết Nguyên đán. Có vẻ như thông báo của DeepSeek thực sự đã châm ngòi
Bản thân việc vẫn đang có chuyện diễn ra trong các công ty công nghệ Trung Quốc lúc này cũng khá bất ngờ
- Các kỹ sư DeepSeek có lẽ đang tuyệt vọng ứng phó sự cố vì năng lực hạ tầng còn kém xa nhu cầu. Các đối thủ dường như либо đã vội tung ra, либо quyết định âm thầm phát hành thứ vốn đã chuẩn bị sẵn. Có cảm giác mọi người đều đang làm việc rất căng
- Giống lúc Gemini lên vị trí số 1 trên bảng xếp hạng Chatbot Arena và OpenAI tung ra mô hình mới ngay ngày hôm sau
Đây có vẻ là mô hình hiệu năng cao nhất mới của Qwen, và hiện chỉ dành cho API. Họ nói nó tốt hơn DeepSeek v3
- Có thể dùng qua bộ chọn mô hình tại https://chat.qwenlm.ai/
Tôi đã chạy bộ benchmark NYT Connections của mình và nó đạt 18.6 điểm, tăng từ 14.8 điểm của Qwen 2.5 72B. Tôi sẽ chạy thêm các benchmark khác sau
https://github.com/lechmazur/nyt-connections/
Mixture of Experts (MoE) trên cloud có cảm giác hơi lửng lơ. Nhưng trên phần cứng cỡ desktop thì nó có thể thực sự tỏa sáng
Bộ nhớ đang ngày càng nhanh hơn, nên chẳng bao lâu nữa MoE có thể sẽ không còn chậm đến mức khó chịu ngay cả với các mô hình tương đối lớn
Không có weights thì không có bằng chứng
- Khi OpenAI phát hành mô hình mới thì bạn cũng sẽ nói y như vậy chứ?
Đây không phải là mô hình suy luận. Nếu nó đã đánh bại DeepSeek V3 trên benchmark, thì phiên bản mô hình suy luận của nó có lẽ còn có thể vượt cả o1 Pro nữa

xguru 2025-01-29

2023-08-03 Alibaba công bố mô hình AI mã nguồn mở QWEN
2024-04-25 Qwen1.5-110B : mô hình 100B+ đầu tiên trong dòng LLM mã nguồn mở Qwen1.5 của Alibaba
2024-06-07 Alibaba công bố mô hình Qwen 2
2024-09-19 Qwen2.5 - công bố nhiều mô hình nền tảng
2024-11-28 QwQ - LLM suy luận của Alibaba tương tự ChatGPT o1
2024-12-24 Trải nghiệm sử dụng QvQ, mô hình suy luận thị giác mới của Qwen
2025-01-27 Qwen2.5-1M - tự triển khai Qwen với hỗ trợ lên tới 1 triệu token

Trong lúc DeepSeek đang tạo nên cơn sốt, Qwen cũng liên tục tung ra những kết quả ấn tượng với tốc độ gần như mỗi ngày một bản.
Các công ty Trung Quốc thật đáng gờm.