Ra mắt mô hình Qwen3-Next - Hướng tới hiệu quả huấn luyện và suy luận tối ưu

(qwen.ai)

3 điểm bởi GN⁺ 2025-09-13 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Qwen3-Next là một kiến trúc mô hình mới được phát triển כדי hỗ trợ mở rộng độ dài ngữ cảnh và mở rộng tổng số tham số, những xu hướng tương lai của mô hình quy mô lớn, đồng thời cung cấp các tính năng tối đa hóa hiệu quả huấn luyện và suy luận
Giới thiệu cơ chế attention lai và cấu trúc MoE có độ thưa rất cao để cải thiện hiệu năng trong bối cảnh ngữ cảnh dài và cấu hình tham số lớn
Tăng tốc độ suy luận thông qua tối ưu độ ổn định huấn luyện và cơ chế dự đoán nhiều token
Mô hình Qwen3-Next-80B-A3B-Base đạt hiệu năng tương đương hoặc tốt hơn Qwen3-32B trong khi giảm chi phí huấn luyện xuống dưới 10%
Việc phát hành mô hình này mang đến bước tiến kiến trúc tiên tiến cho cộng đồng mã nguồn mở, đồng thời đặt nền tảng cho việc nâng cao trí tuệ và năng suất hướng tới Qwen3.5

Giới thiệu

Với niềm tin rằng mở rộng độ dài ngữ cảnh và mở rộng tổng số tham số là các xu hướng chủ đạo của mô hình quy mô lớn trong tương lai, nhóm đã thiết kế một kiến trúc mô hình mới mang tên Qwen3-Next nhằm nâng cao hiệu quả huấn luyện và suy luận trong các thiết lập ngữ cảnh dài và tham số lớn
So với cấu trúc MoE của Qwen3, kiến trúc này đưa vào nhiều cải tiến cốt lõi như cơ chế attention lai, cấu trúc MoE có độ thưa rất cao, tối ưu độ ổn định huấn luyện, cùng cơ chế dự đoán nhiều token để suy luận nhanh hơn
Dựa trên kiến trúc này, nhóm đã huấn luyện mô hình Qwen3-Next-80B-A3B-Base, đây là mô hình 80B tham số nhưng chỉ kích hoạt 3B tham số khi suy luận
Mô hình base này đạt hiệu năng tương đương hoặc nhỉnh hơn một chút so với mô hình dense Qwen3-32B trong khi chỉ sử dụng dưới 10% chi phí huấn luyện (thời gian GPU)
Đặc biệt, ở độ dài ngữ cảnh trên 32K token, mô hình cung cấp thông lượng cao hơn hơn 10 lần, đạt hiệu quả cực đại trong cả huấn luyện lẫn suy luận
Dựa trên Qwen3-Next-80B-A3B-Base, nhóm đã phát triển và phát hành hai phiên bản hậu huấn luyện là Qwen3-Next-80B-A3B-Instruct và Qwen3-Next-80B-A3B-Thinking
Nhờ kiến trúc attention lai và MoE siêu thưa, mô hình giải quyết được các vấn đề lâu nay về độ ổn định và hiệu quả trong huấn luyện reinforcement learning (RL), qua đó cải thiện cả tốc độ huấn luyện RL lẫn hiệu năng cuối cùng
Qwen3-Next-80B-A3B-Instruct cho hiệu năng ngang với mô hình đầu bảng Qwen3-235B-A22B-Instruct-2507 và thể hiện ưu thế rõ rệt trong các tác vụ ngữ cảnh siêu dài lên tới 256K token
Qwen3-Next-80B-A3B-Thinking nổi bật ở các tác vụ suy luận phức tạp, vượt qua những mô hình có chi phí cao hơn như Qwen3-30B-A3B-Thinking-2507 và Qwen3-32B-Thinking, vượt cả Gemini-2.5-Flash-Thinking mã nguồn đóng trên nhiều benchmark, và tiệm cận hiệu năng của mô hình hàng đầu Qwen3-235B-A22B-Thinking-2507
Qwen3-Next đã được phát hành trên Hugging Face và ModelScope; bất kỳ ai cũng có thể sử dụng dịch vụ Qwen3-Next thông qua Alibaba Cloud Model Studio và NVIDIA API Catalog

Tính năng chính

Kiến trúc lai: Gated DeltaNet + Gated Attention tận dụng việc linear attention phá vỡ độ phức tạp bậc hai của attention tiêu chuẩn, từ đó hiệu quả hơn trong ngữ cảnh dài
- Nhóm nhận thấy linear attention nhanh nhưng khả năng recall yếu, còn attention tiêu chuẩn thì tốn kém và chậm; qua các thí nghiệm có hệ thống, họ xác nhận Gated DeltaNet mang lại năng lực in-context learning mạnh hơn các phương pháp phổ biến như Sliding Window Attention hay Mamba2
- Trộn Gated DeltaNet với attention tiêu chuẩn theo tỷ lệ 3:1 (75% layer dùng Gated DeltaNet, 25% giữ attention tiêu chuẩn) để đạt hiệu năng và hiệu quả tốt hơn nhất quán so với bất kỳ kiến trúc đơn lẻ nào
- Áp dụng cơ chế output gating ở các layer attention tiêu chuẩn để giảm vấn đề low-rank của attention, đồng thời tăng số chiều trên mỗi attention head từ 128 lên 256
- Chỉ áp dụng rotary positional encoding cho 25% đầu tiên của chiều vị trí để cải thiện khả năng ngoại suy sang chuỗi dài hơn
MoE siêu thưa: chỉ kích hoạt 3,7% tham số; Qwen3-Next áp dụng thiết kế MoE có độ thưa cao, chỉ kích hoạt khoảng 3B trong tổng số 80B tham số ở mỗi bước suy luận
- Các thí nghiệm cho thấy khi cố định số chuyên gia được kích hoạt thông qua cân bằng tải toàn cục, việc tăng tổng số tham số chuyên gia giúp loss huấn luyện giảm đều đặn
- So với MoE của Qwen3 (tổng 128 chuyên gia, route 8), Qwen3-Next mở rộng lên tổng 512 chuyên gia và kết hợp 10 chuyên gia được route + 1 chuyên gia dùng chung, tối đa hóa việc sử dụng tài nguyên mà không làm suy giảm hiệu năng
Thiết kế thân thiện với độ ổn định huấn luyện với cơ chế attention output gating giúp loại bỏ các vấn đề như Attention Sink và Massive Activation, từ đó bảo đảm độ ổn định số cho toàn bộ mô hình
- Sau khi phát hiện trong Qwen3 dùng QK-Norm có hiện tượng trọng số của một số layer norm tăng bất thường, Qwen3-Next áp dụng Zero-Centered RMSNorm và thêm weight decay lên trọng số norm để ngăn tăng trưởng vô hạn
- Chuẩn hóa tham số router của MoE trong giai đoạn khởi tạo để bảo đảm mỗi chuyên gia được chọn không thiên lệch ở đầu quá trình huấn luyện, qua đó giảm nhiễu do khởi tạo ngẫu nhiên
- Những thiết kế đặt trọng tâm vào độ ổn định này giúp các thí nghiệm quy mô nhỏ đáng tin cậy hơn và việc huấn luyện quy mô lớn diễn ra trơn tru hơn
Dự đoán nhiều token: Qwen3-Next đưa vào cơ chế native multi-token prediction (MTP), không chỉ tạo ra module MTP có tỷ lệ chấp nhận cao cho speculative decoding mà còn cải thiện hiệu năng tổng thể
- Qwen3-Next đặc biệt tối ưu hiệu năng suy luận nhiều bước của MTP, đồng thời cải thiện thêm tỷ lệ chấp nhận của speculative decoding trong các kịch bản thực tế thông qua huấn luyện nhiều bước, giúp duy trì tính nhất quán giữa huấn luyện và suy luận

Tiền huấn luyện

Hiệu quả tiền huấn luyện và tốc độ suy luận: Qwen3-Next được huấn luyện trên một tập con lấy mẫu đồng đều (15T token) từ tập corpus tiền huấn luyện 36T token của Qwen3
- Mô hình dùng chưa tới 80% thời gian GPU cần cho Qwen3-30A-3B, và chỉ tiêu thụ 9,3% chi phí tính toán của Qwen3-32B nhưng vẫn đạt hiệu năng tốt hơn, cho thấy hiệu quả huấn luyện và giá trị rất cao
- Nhờ kiến trúc lai, mô hình cũng rất nổi trội ở suy luận, cung cấp thông lượng gần gấp 7 lần Qwen3-32B ở giai đoạn prefill với độ dài ngữ cảnh 4K
- Nhanh hơn hơn 10 lần ở mức trên 32K
- Ở giai đoạn decode, mô hình cho thông lượng gần gấp 4 lần tại ngữ cảnh 4K, và vẫn duy trì lợi thế tốc độ hơn 10 lần ở trên 32K
Hiệu năng mô hình base: Qwen3-Next-80B-A3B-Base chỉ kích hoạt 1/10 số tham số non-embedding so với Qwen3-32B-Base nhưng vẫn vượt qua mô hình này trên hầu hết benchmark, đồng thời vượt xa Qwen3-30B-A3B, chứng minh hiệu quả vượt trội và hiệu năng mạnh mẽ

Hậu huấn luyện

Hiệu năng mô hình instruct: Qwen3-Next-80B-A3B-Instruct vượt xa Qwen3-30B-A3B-Instruct-2507 và Qwen3-32B-Non-thinking, đồng thời đạt kết quả gần như ngang với mô hình đầu bảng Qwen3-235B-A22B-Instruct-2507
- Trên RULER, Qwen3-Next-80B-A3B-Instruct vượt Qwen3-30B-A3B-Instruct-2507 vốn có nhiều attention layer hơn ở mọi độ dài, đồng thời vượt Qwen3-235B-A22B-Instruct-2507 vốn có nhiều layer tổng thể hơn trong phạm vi ngữ cảnh 256K, qua đó chứng minh sức mạnh của thiết kế lai Gated DeltaNet + Gated Attention cho các tác vụ ngữ cảnh dài
Hiệu năng mô hình Thinking: Qwen3-Next-80B-A3B-Thinking vượt qua các mô hình chi phí cao hơn như Qwen3-30B-A3B-Thinking-2507 và Qwen3-32B-Thinking
- Trên nhiều benchmark, mô hình vượt Gemini-2.5-Flash-Thinking mã nguồn đóng và tiệm cận mô hình đầu bảng mới nhất Qwen3-235B-A22B-Thinking-2507 ở các chỉ số chính

Develop with Qwen3

Hugging Face Transformers: mã Qwen3-Next đã được hợp nhất vào nhánh chính của Hugging Face transformers
- Ở các phiên bản cũ hơn có thể phát sinh lỗi
- Bao gồm đoạn mã ví dụ minh họa nội dung mô hình sinh ra dựa trên đầu vào được cung cấp
- Multi-token prediction (MTP) hiện chưa sẵn có rộng rãi trong Hugging Face Transformers
- Cải thiện về hiệu quả hay thông lượng phụ thuộc rất lớn vào cách triển khai
- Với các tác vụ suy luận, khuyến nghị dùng các framework suy luận chuyên dụng như SGLang và vLLM
- Có thể quan sát hiệu quả tốt hơn tùy cấu hình suy luận khi dùng flash-linear-attention và causal-conv1d
- Xem các liên kết tương ứng để biết hướng dẫn và yêu cầu chi tiết
- Để triển khai, hãy dùng sglang hoặc vllm mới nhất để tạo endpoint API tương thích OpenAI
SGLang là framework serving tốc độ cao cho mô hình ngôn ngữ lớn và mô hình ngôn ngữ-thị giác, có thể khởi chạy máy chủ với dịch vụ API tương thích OpenAI
- SGLang hỗ trợ Qwen3-Next trên nhánh chính và có thể cài đặt từ source
- Cung cấp lệnh tạo endpoint API tại http://localhost:30000/v1 với độ dài ngữ cảnh tối đa 256K token, dùng tensor parallel trên 4 GPU
- Lệnh khuyến nghị cho MTP được cung cấp với các thiết lập còn lại tương tự
- Hiện tại cần biến môi trường SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
- Độ dài ngữ cảnh mặc định là 256K; nếu khởi động máy chủ thất bại, nên cân nhắc giảm xuống giá trị nhỏ hơn như 32768
vLLM là engine suy luận và serving có thông lượng cao, tối ưu bộ nhớ cho LLM, có thể khởi chạy máy chủ với dịch vụ API tương thích OpenAI
- vLLM hỗ trợ Qwen3-Next trên nhánh chính và có thể cài đặt từ source
- Cung cấp lệnh tạo endpoint API tại http://localhost:8000/v1 với độ dài ngữ cảnh tối đa 256K token, dùng tensor parallel trên 4 GPU
- Lệnh khuyến nghị cho MTP được cung cấp với các thiết lập còn lại tương tự
- Hiện tại cần biến môi trường VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
- Độ dài ngữ cảnh mặc định là 256K; nếu khởi động máy chủ thất bại, nên cân nhắc giảm xuống giá trị nhỏ hơn như 32768
Sử dụng agentic: Qwen3 rất mạnh về khả năng tool calling, và khuyến nghị dùng Qwen-Agent để tận dụng tối đa năng lực tác tử của Qwen3
- Qwen-Agent đóng gói sẵn template tool calling và parser tool calling bên trong, giúp giảm đáng kể độ phức tạp khi lập trình
- Có thể dùng file cấu hình MCP để định nghĩa các công cụ khả dụng, dùng các công cụ tích hợp sẵn của Qwen-Agent hoặc dùng công cụ tích hợp riêng
Xử lý văn bản siêu dài: Qwen3-Next hỗ trợ native độ dài ngữ cảnh tối đa 262,144 token
- Với các cuộc hội thoại mà tổng độ dài gồm cả input và output vượt xa giới hạn này, khuyến nghị dùng các kỹ thuật scale RoPE như YaRN để xử lý hiệu quả văn bản dài
- Hiệu năng của mô hình đã được kiểm chứng với độ dài ngữ cảnh lên tới 1 triệu token khi dùng YaRN
- YaRN hiện được hỗ trợ trong nhiều framework suy luận như transformers, vllm và sglang
- Có hai cách để bật YaRN trong các framework được hỗ trợ: chỉnh sửa file mô hình hoặc truyền đối số dòng lệnh
- Thêm trường rope_scaling trong file config.json
- Với vllm, dùng đối số dòng lệnh
- Với sglang, dùng đối số dòng lệnh
- Tất cả các framework mã nguồn mở đáng chú ý hiện đều triển khai YaRN tĩnh, trong đó hệ số scale được giữ cố định bất kể độ dài đầu vào, điều này có thể ảnh hưởng tiềm tàng tới hiệu năng với văn bản ngắn
- Chỉ nên thêm cấu hình rope_scaling khi thực sự cần xử lý ngữ cảnh dài
- Khuyến nghị điều chỉnh factor theo nhu cầu; ví dụ, nếu độ dài ngữ cảnh thông thường của ứng dụng là 524,288 token thì đặt factor thành 2.0

Tóm tắt

Qwen3-Next đánh dấu một bước nhảy vọt lớn về kiến trúc mô hình, đưa vào linear attention và attention gate như những đổi mới trong cơ chế attention, đồng thời tăng mức độ thưa trong thiết kế MoE
Qwen3-Next-80B-A3B mang lại hiệu năng tương đương Qwen3-235B-A22B-2507 lớn hơn trong cả chế độ thinking và non-thinking, đồng thời cung cấp suy luận nhanh hơn đáng kể trong các kịch bản ngữ cảnh dài
Với bản phát hành này, họ kỳ vọng tiếp tục thúc đẩy các tiến bộ kiến trúc tiên tiến cho cộng đồng mã nguồn mở và cùng phát triển với các bước tiến kiến trúc tối tân

Ra mắt mô hình Qwen3-Next - Hướng tới hiệu quả huấn luyện và suy luận tối ưu

Giới thiệu

Tính năng chính

Tiền huấn luyện

Hậu huấn luyện

Develop with Qwen3

Tóm tắt

Bài viết liên quan

Chưa có bình luận nào.