Qwen3 - Mô hình ngôn ngữ thế hệ tiếp theo suy nghĩ sâu hơn và hành động nhanh hơn

(qwenlm.github.io)

8 điểm bởi GN⁺ 2025-04-29 | 2 bình luận | Chia sẻ qua WhatsApp

Qwen3 là mô hình ngôn ngữ lớn mới nhất với tối đa 235B tham số, cho thấy hiệu năng cạnh tranh với DeepSeek-R1, Grok-3, Gemini-2.5-Pro và các mô hình khác
Hỗ trợ chế độ tư duy lai (Thinking/Non-Thinking), cho phép điều chỉnh độ sâu suy luận theo độ khó của bài toán
Hỗ trợ 119 ngôn ngữ và phương ngữ, giúp khả năng ứng dụng toàn cầu được tăng cường đáng kể
Được pretrain với 36 nghìn tỷ token dữ liệu, gấp 2 lần so với phiên bản trước, giúp cải thiện năng lực lập trình, toán học, suy luận logic
Được phát hành mã nguồn mở theo giấy phép Apache 2.0 và có thể dùng ngay trên Hugging Face, ModelScope, Kaggle

Giới thiệu

Qwen3 là mô hình ngôn ngữ lớn mới nhất của dòng Qwen, trong đó Qwen3-235B-A22B với 235B tham số là mẫu flagship chính
Mô hình MoE cỡ nhỏ Qwen3-30B-A3B cho thấy hiệu năng vượt qua QwQ-32B, vốn kích hoạt số tham số nhiều hơn gấp 10 lần
Công bố 6 mô hình Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) và 2 mô hình MoE (30B, 235B) theo giấy phép Apache 2.0

Tính năng chính

Chế độ tư duy lai
- Chế độ Thinking: chế độ thực hiện suy luận từng bước cho các bài toán phức tạp
- Chế độ Non-Thinking: chế độ trả lời ngay lập tức cho các bài toán đơn giản cần phản hồi nhanh
- Có thể điều chỉnh ngân sách suy luận theo tác vụ để tối ưu hiệu quả chi phí và chất lượng
Hỗ trợ đa ngôn ngữ
- Hỗ trợ 119 ngôn ngữ và phương ngữ, củng cố khả năng mở rộng sang các ứng dụng toàn cầu
- Các nhóm ngôn ngữ chính được hỗ trợ: Ấn-Âu ngữ, Hán-Tạng ngữ, Phi-Á ngữ, Nam Đảo ngữ, Dravid ngữ v.v.
Khả năng agent được cải thiện
- Tối ưu hóa năng lực lập trình và agent
- Tích hợp với Qwen-Agent để tối đa hóa năng lực gọi công cụ

Tiền huấn luyện

Thực hiện pretraining với 36 nghìn tỷ token, tăng gấp 2 lần so với Qwen2.5
Thu thập dữ liệu web và dữ liệu tài liệu tương tự PDF để xây dựng nhiều bộ dữ liệu chất lượng cao
Tăng cường dữ liệu trong các lĩnh vực STEM, lập trình, toán học để đạt được cải thiện năng lực suy luận tổng thể

Hậu huấn luyện

Áp dụng pipeline 4 giai đoạn (khởi đầu CoT → học tăng cường → hợp nhất chế độ tư duy → học tăng cường tổng quát)
Tối ưu mô hình để có thể đồng thời thực hiện suy luận logic và phản hồi nhanh
Tăng cường tính tổng quát và độ ổn định thông qua học tăng cường trên hơn 20 tác vụ miền tổng quát

Phát triển với Qwen3

Hỗ trợ nhiều framework như Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp
Chế độ Thinking có thể bật/tắt dễ dàng trong code, đồng thời cũng có thể chuyển đổi trong hội thoại bằng lệnh /think, /no_think

Cách dùng agent

Thông qua Qwen-Agent, có thể xây dựng hệ thống agent phức tạp bằng cách sử dụng tệp cấu hình MCP hoặc công cụ tích hợp sẵn
Có thể tự xây dựng máy chủ tương thích OpenAI API để triển khai cục bộ hoặc công khai

Công việc trong tương lai

Qwen3 đại diện cho một cột mốc quan trọng hướng tới trí tuệ nhân tạo tổng quát (AGI) và siêu trí tuệ nhân tạo (ASI), mở rộng tiền huấn luyện và học tăng cường để đạt tới mức độ thông minh cao hơn
Hướng tới mở rộng dữ liệu, tăng kích thước mô hình, mở rộng độ dài ngữ cảnh, mở rộng modality và suy luận dài hạn thông qua phản hồi từ môi trường bằng cách cải thiện kiến trúc mô hình và phương pháp huấn luyện
Đang chuyển từ kỷ nguyên lấy huấn luyện mô hình làm trung tâm sang kỷ nguyên lấy huấn luyện agent làm trung tâm, và phiên bản tiếp theo sẽ mang lại những tiến bộ có ý nghĩa cho công việc và cuộc sống của mọi người

2 bình luận

iwanhae 2025-04-29

Mô hình lớn cũng rất thú vị, nhưng phía mô hình nhỏ còn thú vị hơn.
Có vẻ như mô hình 0.6B cho hiệu năng ngang khoảng 7B của khá nhiều mô hình khác.

GN⁺ 2025-04-29

Ý kiến trên Hacker News

Một bài toán dựa trên vật lý đã được đưa cho các LLM, và đây là bài toán khó ngay cả với con người. GPT o3, Claude 3.7, Gemini 2.5 Pro đều không trả lời đúng ngay từ đầu. Qwen3 còn sai nhiều hơn.
Tài liệu rất đầy đủ, và hỗ trợ cho các stack suy luận chính đã có ngay từ ngày đầu. Có thể chọn nhiều kích thước khác nhau. Dường như họ cũng đã làm việc với cộng đồng tạo bản quant từ trước.
Chưa thử kiểm tra hiệu năng, nhưng chỉ riêng sự chú ý đến các chi tiết xung quanh cũng đã khiến đây trở thành một bản phát hành rất tốt. Nên trở thành tiêu chuẩn nếu so với Llama 4 của Meta.
Kết quả benchmark quá xuất sắc đến mức khó tin. Mô hình 30B cạnh tranh được với Gemini 2.5 Pro và tốt hơn rất nhiều so với Gemma 27B.
Đang có rất nhiều mô hình open-weight xuất hiện, và tôi tự hỏi liệu có cách nào để biết mô hình nào sẽ chạy ở tốc độ hợp lý trên GPU desktop tiêu chuẩn hay không. Tôi đang dùng Quadro RTX 4000 và không rõ trong các kích thước mô hình khác nhau thì cái nào sẽ nhanh.
Có khả năng các mô hình Qwen và DeepSeek được huấn luyện để phù hợp với thế giới quan của CCP, nhưng trên thực tế điều đó chưa gây ra vấn đề gì. Chưa có nhiều nghiên cứu liên quan.
Kỳ vọng nhiều nhất vào Qwen-30B-A3B. Nó có vẻ phù hợp làm trợ lý lập trình chỉ chạy offline/cục bộ. Cho đến nay, các mô hình open-weight либо là hiệu năng kém, либо là quá chậm.
Đang tìm kiếm góc nhìn về cách tốt nhất để so sánh các mô hình suy luận. Người ta thường khuyến nghị dùng nhiệt độ cao cho câu trả lời sáng tạo, và nhiệt độ thấp cho đầu ra logic, có tính quyết định. Nhưng không chắc điều đó có áp dụng được cho mô hình suy luận hay không.
Thú vị ở chỗ một LLM 0.6B lại có cửa sổ ngữ cảnh 32k. Nó có thể trở thành một mô hình nền thú vị để fine-tune. Trên Hugging Face, nó có số lượt tải và lượt thích cao nhất.
Những mô hình này có vẻ như “suy nghĩ” rất nhiều. Benchmark được chạy với ngân sách suy nghĩ 32k token. A3B đặc biệt vượt qua QWQ và có thể hữu ích cho suy luận trên CPU.
Các chỉ số hiệu năng thực sự rất ấn tượng. MoE với 3B tham số kích hoạt đã vượt o1. Các mô hình cục bộ đang trở nên đủ tốt để xử lý phần lớn tác vụ.