- Mô hình tập trung vào suy luận mới nhất, được nâng cao hiệu năng trên nhiều phương diện như tri thức thực tế, suy luận phức tạp, căn chỉnh theo sở thích của con người thông qua học tăng cường quy mô lớn và mở rộng tham số
- Trên 19 benchmark, ghi nhận kết quả tương đương hoặc vượt trội ở một số hạng mục so với GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro
- Với khả năng sử dụng công cụ thích ứng, mô hình tự động gọi tìm kiếm, bộ nhớ và trình thông dịch mã trong lúc hội thoại, hỗ trợ giảm ảo giác và truy cập thông tin theo thời gian thực
- Chiến lược mở rộng tại thời điểm kiểm thử (test-time scaling) giúp giảm tính toán lặp lại trong quá trình suy luận, đồng thời nâng cao hiệu quả nhờ cơ chế tích lũy kinh nghiệm dựa trên tự phản tư
- Có thể dùng ngay qua Qwen Chat và API, đồng thời tương thích với API của OpenAI và Anthropic, giúp nhà phát triển dễ dàng tích hợp vào quy trình làm việc hiện có
Tổng quan về Qwen3-Max-Thinking
- Qwen3-Max-Thinking là mô hình suy luận flagship mới nhất của dòng Qwen, mở rộng hiệu năng bằng cách tận dụng học tăng cường và tài nguyên tính toán quy mô lớn
- Được cải thiện trên nhiều chiều như tri thức thực tế, suy luận phức tạp, tuân theo chỉ thị, căn chỉnh theo sở thích của con người, khả năng tác tử
- Đạt hiệu năng ở mức tương đương GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro trên 19 benchmark tiêu chuẩn
- Được tăng cường bởi hai đổi mới chính
- Sử dụng công cụ thích ứng (adaptive tool-use): tự động gọi tìm kiếm và trình thông dịch mã khi cần
- Mở rộng tại thời điểm kiểm thử nâng cao (test-time scaling): tận dụng hiệu quả phần tính toán bổ sung trong lúc suy luận để đạt hiệu năng vượt Gemini 3 Pro
Tóm tắt hiệu năng benchmark
- Ở mảng tri thức (knowledge), đạt các điểm số như MMLU-Pro 85.7, C-Eval 93.7, tiệm cận các mô hình hàng đầu
- Trong lĩnh vực STEM, đạt GPQA 87.4, HLE 30.2, thấp hơn một số mô hình nhưng vẫn duy trì hiệu năng cân bằng
- Trên các benchmark suy luận (reasoning), ghi nhận các chỉ số cao như HMMT Nov 25 94.7, LiveCodeBench v6 85.9
- Ở hạng mục tuân theo chỉ thị và căn chỉnh (instruction following & alignment), đạt Arena-Hard v2 90.2, thuộc nhóm dẫn đầu
- Trong sử dụng công cụ (tool use) và tìm kiếm tác tử (agentic search) cũng cho thấy một số kết quả vượt trội so với các mô hình cạnh tranh
Khả năng sử dụng công cụ thích ứng
- Ngay cả khi người dùng không trực tiếp chọn công cụ, mô hình vẫn tự động tận dụng Search, Memory, Code Interpreter
- Search và Memory giúp giảm ảo giác, truy cập thông tin theo thời gian thực và cung cấp phản hồi được cá nhân hóa
- Code Interpreter hỗ trợ giải quyết các vấn đề phức tạp thông qua thực thi mã và suy luận dựa trên tính toán
- Những khả năng này được củng cố thông qua quá trình huấn luyện bổ sung kết hợp phản hồi dựa trên luật và phản hồi dựa trên mô hình
- Kết quả là mang lại trải nghiệm hội thoại tự nhiên và mạnh mẽ
Chiến lược mở rộng tại thời điểm kiểm thử
- Đây là phương pháp phân bổ thêm tài nguyên tính toán trong lúc suy luận để tăng hiệu năng, hiệu quả hơn so với lấy mẫu song song đơn thuần
- Cách tiếp cận được đề xuất sử dụng phương thức nhiều vòng dựa trên tích lũy kinh nghiệm và tự phản tư (self-reflective multi-round)
- Thông qua cơ chế “take-experience”, mô hình trích xuất các insight cốt lõi từ vòng trước
- Không lặp lại các kết luận đã rút ra, mà tập trung vào những điểm bất định chưa được giải quyết
- Đạt được hiệu quả ngữ cảnh cao hơn với cùng mức tiêu thụ token
- Cải thiện từ GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3
Phát triển và tích hợp API
- Có thể sử dụng ngay trong Qwen Chat, với tên mô hình là
qwen3-max-2026-01-23
- Có thể dùng sau khi tạo API key qua Alibaba Cloud Model Studio
- Tương thích hoàn toàn với OpenAI API, kèm ví dụ mã Python
- Có thể bật chế độ suy luận thông qua tùy chọn
enable_thinking
- Cũng tương thích với giao thức API của Anthropic, nên hoạt động tương tự trong môi trường Claude Code
- Có thể chạy bằng lệnh
claude sau khi thiết lập biến môi trường
1 bình luận
Ý kiến trên Hacker News
Có câu hỏi về một bức ảnh nổi tiếng, nhưng hệ thống phát hiện đó là "nội dung không phù hợp" và trả về lỗi. Người dùng thắc mắc vì sao hình ảnh này lại quan trọng ở tầm quốc tế
Mọi người bắt đầu tò mò về lượng token sử dụng của các mô hình gần đây. Những thứ như “cải thiện khả năng suy luận” hay “tăng dùng công cụ” có lẽ không hẳn là bản thân mô hình tốt hơn, mà là cách dẫn dắt mô hình tốt hơn bằng cách dùng nhiều token hơn. Nói cách khác, đây không phải kiểu “ít hơn mà được nhiều hơn” mà là “dùng nhiều hơn để được nhiều hơn”
Có người thắc mắc vì sao khi tắt tìm kiếm thì nó kém hơn Opus 4.5, nhưng khi bật lên thì lại tốt hơn. Họ tự hỏi có phải chất lượng nội dung trên internet Trung Quốc tốt hơn không
Có người hỏi về chính sách giá của các mô hình Qwen. Không rõ Qwen Max có cùng mức giá hay không, và vì sao giá trong Trung Quốc lại rẻ hơn nhiều
Trang mô hình Alibaba Cloud
Bài viết liên quan
Trên HN, Opus 4.5 gần như được xem là mô hình tiêu chuẩn, và người ta từng cho rằng các mô hình Trung Quốc đã chậm hơn hơn 8 tháng. Có người tò mò liệu mô hình lần này có thu hẹp được khoảng cách đó không
Trong khi đó, Gemini 3 Pro/Flash vẫn thấp hơn một bậc, nhưng nếu so với năm ngoái thì đã rất nhanh và rẻ. Cuối cùng, benchmark chỉ mang tính tham khảo, còn chất lượng cảm nhận thực tế vẫn mang tính chủ quan
Có người từng dùng Qwen3-coder cho một dự án Rust thông qua CLI agent trae vào mùa thu năm ngoái, và thấy khả năng sinh mã và refactor còn tốt hơn Gemini 2.5 Pro hay Claude Opus 3.5.
Nó xử lý tốt cả việc thêm lời gọi IPC bộ nhớ dùng chung trên Linux lẫn tối ưu hóa SIMD x86_64. Tuy nhiên, do dùng token cache và cửa sổ ngữ cảnh lớn, chi phí mỗi tháng lên tới vài trăm USD
Không thấy liên kết Hugging Face nên có người hỏi liệu Qwen có còn phát hành mô hình mở nữa không
Cũng có người hỏi liệu nó có dùng được trên Open Router chưa. Họ mong chờ so sánh với Gemini 3 Flash
Mafia Arena
lmarena.ai, bảng điều khiển safe.ai,
Clock Draw Test, EQBench, OCR Arena
Benchmark LLM giống như phỏng vấn lập trình viên vậy. Nó có thể giải tốt các bài toán thuật toán phân tán phức tạp, nhưng trong công việc thực tế lại có kiểu lệch pha như chỉ thêm một nút bấm thôi mà vẫn quên tái sử dụng class Tailwind
Có người hỏi về kích thước mô hình
blog chính thức