Ra mắt mô hình Qwen3-Max-Thinking

(qwen.ai)

7 điểm bởi GN⁺ 2026-01-27 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình tập trung vào suy luận mới nhất, được nâng cao hiệu năng trên nhiều phương diện như tri thức thực tế, suy luận phức tạp, căn chỉnh theo sở thích của con người thông qua học tăng cường quy mô lớn và mở rộng tham số
Trên 19 benchmark, ghi nhận kết quả tương đương hoặc vượt trội ở một số hạng mục so với GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro
Với khả năng sử dụng công cụ thích ứng, mô hình tự động gọi tìm kiếm, bộ nhớ và trình thông dịch mã trong lúc hội thoại, hỗ trợ giảm ảo giác và truy cập thông tin theo thời gian thực
Chiến lược mở rộng tại thời điểm kiểm thử (test-time scaling) giúp giảm tính toán lặp lại trong quá trình suy luận, đồng thời nâng cao hiệu quả nhờ cơ chế tích lũy kinh nghiệm dựa trên tự phản tư
Có thể dùng ngay qua Qwen Chat và API, đồng thời tương thích với API của OpenAI và Anthropic, giúp nhà phát triển dễ dàng tích hợp vào quy trình làm việc hiện có

Tổng quan về Qwen3-Max-Thinking

Qwen3-Max-Thinking là mô hình suy luận flagship mới nhất của dòng Qwen, mở rộng hiệu năng bằng cách tận dụng học tăng cường và tài nguyên tính toán quy mô lớn
- Được cải thiện trên nhiều chiều như tri thức thực tế, suy luận phức tạp, tuân theo chỉ thị, căn chỉnh theo sở thích của con người, khả năng tác tử
- Đạt hiệu năng ở mức tương đương GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro trên 19 benchmark tiêu chuẩn
Được tăng cường bởi hai đổi mới chính
- Sử dụng công cụ thích ứng (adaptive tool-use): tự động gọi tìm kiếm và trình thông dịch mã khi cần
- Mở rộng tại thời điểm kiểm thử nâng cao (test-time scaling): tận dụng hiệu quả phần tính toán bổ sung trong lúc suy luận để đạt hiệu năng vượt Gemini 3 Pro

Tóm tắt hiệu năng benchmark

Ở mảng tri thức (knowledge), đạt các điểm số như MMLU-Pro 85.7, C-Eval 93.7, tiệm cận các mô hình hàng đầu
Trong lĩnh vực STEM, đạt GPQA 87.4, HLE 30.2, thấp hơn một số mô hình nhưng vẫn duy trì hiệu năng cân bằng
Trên các benchmark suy luận (reasoning), ghi nhận các chỉ số cao như HMMT Nov 25 94.7, LiveCodeBench v6 85.9
Ở hạng mục tuân theo chỉ thị và căn chỉnh (instruction following & alignment), đạt Arena-Hard v2 90.2, thuộc nhóm dẫn đầu
Trong sử dụng công cụ (tool use) và tìm kiếm tác tử (agentic search) cũng cho thấy một số kết quả vượt trội so với các mô hình cạnh tranh

Khả năng sử dụng công cụ thích ứng

Ngay cả khi người dùng không trực tiếp chọn công cụ, mô hình vẫn tự động tận dụng Search, Memory, Code Interpreter
- Search và Memory giúp giảm ảo giác, truy cập thông tin theo thời gian thực và cung cấp phản hồi được cá nhân hóa
- Code Interpreter hỗ trợ giải quyết các vấn đề phức tạp thông qua thực thi mã và suy luận dựa trên tính toán
Những khả năng này được củng cố thông qua quá trình huấn luyện bổ sung kết hợp phản hồi dựa trên luật và phản hồi dựa trên mô hình
Kết quả là mang lại trải nghiệm hội thoại tự nhiên và mạnh mẽ

Chiến lược mở rộng tại thời điểm kiểm thử

Đây là phương pháp phân bổ thêm tài nguyên tính toán trong lúc suy luận để tăng hiệu năng, hiệu quả hơn so với lấy mẫu song song đơn thuần
Cách tiếp cận được đề xuất sử dụng phương thức nhiều vòng dựa trên tích lũy kinh nghiệm và tự phản tư (self-reflective multi-round)
- Thông qua cơ chế “take-experience”, mô hình trích xuất các insight cốt lõi từ vòng trước
- Không lặp lại các kết luận đã rút ra, mà tập trung vào những điểm bất định chưa được giải quyết
Đạt được hiệu quả ngữ cảnh cao hơn với cùng mức tiêu thụ token
- Cải thiện từ GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3

Phát triển và tích hợp API

Có thể sử dụng ngay trong Qwen Chat, với tên mô hình là qwen3-max-2026-01-23
Có thể dùng sau khi tạo API key qua Alibaba Cloud Model Studio
Tương thích hoàn toàn với OpenAI API, kèm ví dụ mã Python
- Có thể bật chế độ suy luận thông qua tùy chọn enable_thinking
Cũng tương thích với giao thức API của Anthropic, nên hoạt động tương tự trong môi trường Claude Code
- Có thể chạy bằng lệnh claude sau khi thiết lập biến môi trường

1 bình luận

GN⁺ 2026-01-27

Ý kiến trên Hacker News

Có câu hỏi về một bức ảnh nổi tiếng, nhưng hệ thống phát hiện đó là "nội dung không phù hợp" và trả về lỗi. Người dùng thắc mắc vì sao hình ảnh này lại quan trọng ở tầm quốc tế
- Có vẻ đây là do một cơ chế an toàn riêng biệt. Thực tế, các mẫu Qwen trước đây khi được phục vụ bên ngoài Trung Quốc vẫn xử lý khá tự do cả các chủ đề liên quan đến Thiên An Môn. Ví dụ, Qwen3 235B A22B Instruct 2507 còn giải thích chi tiết bối cảnh lịch sử của bức ảnh “Tank Man” và tình trạng kiểm duyệt trong nước Trung Quốc. Cũng có phân tích cho rằng chính bản thân sự kiểm duyệt lại càng làm tăng tính biểu tượng của nó
- Nếu là công ty Trung Quốc thì về mặt pháp lý họ phải tuân theo kiểm duyệt, nên điều này không quá bất ngờ. Tuy vậy, nhiều người tò mò những ràng buộc như vậy sẽ ảnh hưởng thế nào đến các lĩnh vực phi chính trị như công việc lập trình. Thực ra Anthropic của Mỹ cũng áp dụng một dạng hạn chế kiểu alignment để ngăn chặn hành vi bất hợp pháp
- Các LLM của Mỹ cũng gặp vấn đề kiểm duyệt tương tự. Chỉ là đối tượng bị kiểm duyệt khác nhau mà thôi
- Có người thắc mắc liệu trong giới nghiên cứu đã có ai nghiên cứu khả năng cài hành vi độc hại (backdoor) vào LLM hay chưa. Một số bài báo cho biết chỉ với một số ít ví dụ độc hại cũng có thể huấn luyện mô hình phản ứng với một cụm từ “trigger” cụ thể. Thậm chí còn có thể can thiệp vào file tokenizer để gây ra tác dụng phụ như tăng chi phí API hoặc làm suy yếu bộ lọc an toàn. Đây được xem là lúc cần có những thảo luận như vậy
- Cũng có ý kiến cho rằng những chủ đề như thế này thường khiến thảo luận bị chệch hướng, nên giờ nên quay lại nói về khía cạnh kỹ thuật của các mô hình AI Trung Quốc
Mọi người bắt đầu tò mò về lượng token sử dụng của các mô hình gần đây. Những thứ như “cải thiện khả năng suy luận” hay “tăng dùng công cụ” có lẽ không hẳn là bản thân mô hình tốt hơn, mà là cách dẫn dắt mô hình tốt hơn bằng cách dùng nhiều token hơn. Nói cách khác, đây không phải kiểu “ít hơn mà được nhiều hơn” mà là “dùng nhiều hơn để được nhiều hơn”
- Có người cho rằng điều này cho thấy giới hạn thực tế của AGI (trí tuệ nhân tạo tổng quát). Nếu cần quá nhiều tài nguyên tính toán thì ngay cả khi có đột phá kỹ thuật, thế giới thực cũng có thể vẫn chưa thay đổi nhiều trong một thời gian. Cuối cùng, tài nguyên tính toán cho suy luận có thể trở thành nút thắt cổ chai
- Có người hỏi Gemini về mức tiêu thụ điện so với tìm kiếm truyền thống, và khá bất ngờ khi nó trả lời rằng tìm kiếm bằng AI hiệu quả hơn tìm kiếm truyền thống. Ngoài ra, trong số các bài báo arXiv được Perplexity gợi ý, bài On the Slow Death of Scaling của Sara Hooker để lại ấn tượng mạnh. Bài này đưa ra các trường hợp mô hình nhỏ vượt qua mô hình lớn, và cho rằng tiến bộ trong tương lai sẽ phụ thuộc vào đổi mới thuật toán hơn là chỉ tăng năng lực tính toán
- Có cảm giác cần một thước đo mới để đánh giá tiến bộ của mô hình. Thay vì chỉ nhìn điểm benchmark đơn thuần, nên tính cả mức dùng GPU, tốc độ, chi phí, v.v.
- Có ý kiến cho rằng Pareto frontier là khái niệm phù hợp để giải thích sự cân bằng giữa hiệu quả và hiệu năng kiểu này
- Một số mô hình thể hiện quy trình suy luận rất lãng phí token, nên thực tế là khá kém hiệu quả
Có người thắc mắc vì sao khi tắt tìm kiếm thì nó kém hơn Opus 4.5, nhưng khi bật lên thì lại tốt hơn. Họ tự hỏi có phải chất lượng nội dung trên internet Trung Quốc tốt hơn không
- Đây có vẻ là suy luận quá đà. Khả năng cao chỉ là hiệu năng tìm kiếm và chất lượng tích hợp tốt hơn. Mô hình hỗ trợ đa ngôn ngữ nên xử lý tốt các website trên toàn thế giới
- Có người nói mình dùng Kagi Assistant và khá hài lòng vì có thể lọc để chỉ tìm tài liệu học thuật. Tuy nhiên, họ lo rằng đến lúc nào đó ngay cả bài báo học thuật cũng sẽ bị ô nhiễm bởi nội dung do AI tạo ra. Dù vậy, họ vẫn tin cuối cùng sẽ tìm ra cách giải quyết
- Cũng có câu đùa kiểu “chắc là vì không có Reddit?”
Có người hỏi về chính sách giá của các mô hình Qwen. Không rõ Qwen Max có cùng mức giá hay không, và vì sao giá trong Trung Quốc lại rẻ hơn nhiều
Trang mô hình Alibaba Cloud
- Tại Trung Quốc, cuộc chiến giá AI đang rất khốc liệt, và chính phủ đang hạ chi phí hạ tầng thông qua voucher năng lực tính toán và trợ cấp.
  Bài viết liên quan
- Rất có thể đây là trợ cấp nhằm hỗ trợ nhà phát triển trong nước
- Chi phí năng lượng rẻ hơn cũng có thể là một yếu tố
- Có người giới thiệu khái niệm surveillance pricing là định giá thay đổi theo khu vực và điều kiện tìm kiếm, đồng thời chia sẻ liên kết video
Trên HN, Opus 4.5 gần như được xem là mô hình tiêu chuẩn, và người ta từng cho rằng các mô hình Trung Quốc đã chậm hơn hơn 8 tháng. Có người tò mò liệu mô hình lần này có thu hẹp được khoảng cách đó không
- Theo các benchmark đã công bố, có vẻ nó vẫn chậm hơn khoảng 6 tháng
- Cá nhân có người thấy GPT-5.2 tốt hơn và rẻ hơn. Sự thiên vị Claude Code trên HN có thể chỉ là cách những người đăng ký dịch vụ tự hợp lý hóa lựa chọn của mình. Dù vậy, Opus 4.5 vẫn nhanh và chất lượng cao nên khả năng dùng thực tế rất tốt.
  Trong khi đó, Gemini 3 Pro/Flash vẫn thấp hơn một bậc, nhưng nếu so với năm ngoái thì đã rất nhanh và rẻ. Cuối cùng, benchmark chỉ mang tính tham khảo, còn chất lượng cảm nhận thực tế vẫn mang tính chủ quan
Có người từng dùng Qwen3-coder cho một dự án Rust thông qua CLI agent trae vào mùa thu năm ngoái, và thấy khả năng sinh mã và refactor còn tốt hơn Gemini 2.5 Pro hay Claude Opus 3.5.
Nó xử lý tốt cả việc thêm lời gọi IPC bộ nhớ dùng chung trên Linux lẫn tối ưu hóa SIMD x86_64. Tuy nhiên, do dùng token cache và cửa sổ ngữ cảnh lớn, chi phí mỗi tháng lên tới vài trăm USD
Không thấy liên kết Hugging Face nên có người hỏi liệu Qwen có còn phát hành mô hình mở nữa không
- Bản Max vốn dĩ là mô hình đóng
- Không phải mọi mô hình đều được phát hành với trọng số công khai, và mẫu lần này có vẻ cũng chưa phải open-weight
Cũng có người hỏi liệu nó có dùng được trên Open Router chưa. Họ mong chờ so sánh với Gemini 3 Flash
Mafia Arena
- Hiện vẫn chưa được đăng ký, nhưng có vẻ sắp được thêm vào
- Người ta cũng chia sẻ nhiều website benchmark để so sánh mô hình:
  lmarena.ai, bảng điều khiển safe.ai,
  Clock Draw Test, EQBench, OCR Arena
Benchmark LLM giống như phỏng vấn lập trình viên vậy. Nó có thể giải tốt các bài toán thuật toán phân tán phức tạp, nhưng trong công việc thực tế lại có kiểu lệch pha như chỉ thêm một nút bấm thôi mà vẫn quên tái sử dụng class Tailwind
Có người hỏi về kích thước mô hình
- Qwen2.5 được huấn luyện trên 18 nghìn tỷ token, còn Qwen3 là 36 nghìn tỷ token, gần gấp đôi. Nó bao gồm 119 ngôn ngữ và phương ngữ
  blog chính thức

Ra mắt mô hình Qwen3-Max-Thinking

Tổng quan về Qwen3-Max-Thinking

Tóm tắt hiệu năng benchmark

Khả năng sử dụng công cụ thích ứng

Chiến lược mở rộng tại thời điểm kiểm thử

Phát triển và tích hợp API

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News