- Kế nhiệm Qwen3.6-Plus, cải thiện coding tác tử cùng tri thức thế giới mạnh hơn và hiệu năng làm theo chỉ thị tốt hơn so với phiên bản trước
- Ghi điểm cao nhất trên 6 benchmark coding chủ chốt, cho thấy hiệu năng tác tử coding được nâng lên đáng kể
- Hỗ trợ tính năng preserve_thinking, sử dụng cách lưu giữ quá trình suy nghĩ của lượt trước trong tin nhắn khi thực hiện tác vụ tác tử
- Trên các benchmark về tri thức thế giới, mô hình được cải thiện như SuperGPQA +2.3, QwenChineseBench +5.3; ở khả năng làm theo chỉ thị, ToolcallFormatIFBench đạt +2.8
- Có thể thử nghiệm tương tác trên Qwen Studio, và sẽ được gọi bằng
qwen3.6-max-preview qua API của Alibaba Cloud Model Studio
Các cải tiến chính
- So với Qwen3.6-Plus, năng lực coding tác tử được cải thiện mạnh: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- Tăng cường tri thức thế giới (world knowledge): SuperGPQA +2.3, QwenChineseBench +5.3
- Cải thiện làm theo chỉ thị (instruction following): ToolcallFormatIFBench +2.8
- Đạt điểm cao nhất trên 6 benchmark coding lớn: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
Đặc điểm mô hình và cách tiếp cận
- Mô hình độc quyền dạng hosted được cung cấp thông qua Alibaba Cloud Model Studio
- Cải thiện hiệu năng cho tác tử thực tế (real-world agent) và độ tin cậy tri thức (knowledge reliability)
- Có thể thử nghiệm ngay theo dạng tương tác trên Qwen Studio
- Tên model API là
qwen3.6-max-preview, sẽ sớm khả dụng trong API của Alibaba Cloud Model Studio
Sử dụng API và tính năng
- Hỗ trợ các giao thức tiêu chuẩn ngành như OpenAI-compatible chat completions và responses API, cùng giao diện tương thích Anthropic
- Thông qua tính năng
preserve_thinking, có thể giữ lại quá trình suy luận (reasoning content) của lượt trước và được khuyến nghị cho các tác vụ tác tử
- Khi đặt
enable_thinking: True, có thể nhận riêng nội dung suy luận và phản hồi theo cách streaming
- Cung cấp Base URL API theo khu vực: Bắc Kinh, Singapore, Mỹ (Virginia)
Trạng thái phát triển
- Hiện đang ở giai đoạn preview release và tiếp tục được cải tiến lặp lại, với các nâng cấp bổ sung dự kiến ở các phiên bản sau
1 bình luận
Ý kiến trên Hacker News
Tôi thấy hơi buồn cười khi mọi người cứ ám ảnh với việc chỉ so sánh SOTA. Tôi đã thấy những trường hợp glm 5.1 làm được việc mà Opus không làm được, và cũng từng trải nghiệm nó viết code tốt hơn. Tôi chưa dùng qwen max, nhưng cũng đã thấy model local 122b đọc tài liệu tốt hơn và xử lý chính xác hơn. Cuối cùng thì benchmark chỉ là một phần; trên thực tế mỗi model đều có điểm mạnh khác nhau, nên tôi nghĩ không nên nói như thể đang so búa với cờ lê chỉ để phân định hơn kém đơn thuần
Tôi đã dùng Claude Code đều đặn ở công ty suốt vài tháng nay, và cách đây không lâu cũng tận dụng tốt cho một dự án website cá nhân nhỏ. Cuối tuần trước tôi còn lần đầu thử self-hosting. Tôi muốn biết có ai đã dùng đủ nhiều CC hay Codex, rồi sau đó tìm được một cấu hình tự host đủ hài lòng hay chưa. Tôi đã thử đủ kiểu kết hợp ollama, docker desktop model runner, pi-coding-agent, opencode với Gemma 4, Qwen, GLM-5.1 trong môi trường 32GB DDR5, AMD 7800X3D, RTX 4090, Windows và WSL. Mức sử dụng RAM nền vốn đã cao nên tôi không chạy được những model tốt như Gemma4-31B. Trong môi trường Windows thuần thì xử lý đường dẫn file hay bị rối, còn cách chạy pi hay opencode trong WSL và chạy model bằng docker desktop thì có phần thành công. Tuy vậy, hiệu năng cảm nhận thực tế vẫn quá chậm so với CC, và độ hoàn thiện công cụ thì phía CC harness cho cảm giác tốt hơn nhiều. Tôi đã tốn quá nhiều thời gian cho việc setup nên chưa dùng thực tế được lâu, nhưng dù sao đây vẫn là một thử nghiệm thú vị
Tôi lo rằng lĩnh vực này đang đi theo kiểu trước hết tung ra bản miễn phí để tạo tên tuổi, rồi sau đó chuyển hết sang proprietary. Dù vậy, tôi vẫn mong open weights tiếp tục được phát hành. Nếu đến một ngày không còn ai tung ra open weights nữa thì sẽ thật buồn. Trong một thế giới như vậy, người bình thường có lẽ sẽ càng khó tự sở hữu compute của mình hơn
Hôm nay Kimi K2.6 cũng ra mắt, nên việc so sánh hai bên là khá tự nhiên. Chỉ nhìn giá thôi thì Qwen là 1,3 USD cho input và 7,8 USD cho output, còn Kimi là 0,95 USD cho input và 4 USD cho output, nên Qwen có vẻ đắt hơn. Trong bài công bố chỉ có hai benchmark trùng nhau, nhưng ở cả SWE-Bench Pro lẫn Terminal-Bench 2.0 thì Kimi đều nhỉnh hơn Qwen một chút. Tất nhiên mỗi model có điểm mạnh khác nhau và benchmark không phải là tất cả, nhưng nếu chỉ nhìn vào con số thì phía Kimi có vẻ hấp dẫn hơn
Tôi thấy điều mỉa mai của lần công bố này nằm ngay trong cái tên. Max-Preview là proprietary và chỉ có trên cloud. Theo tôi, Qwen thực sự quan trọng là dòng open weights mà mọi người chạy trên phần cứng của chính họ. Tôi đang chạy 32B và 72B local bằng dual A4000. Dù vẫn còn khoảng cách với Max bản hosted, nhưng tôi thấy khoảng cách đó thu hẹp dần sau mỗi lần phát hành. Vì thế, câu hỏi thực sự thú vị không phải là Max so với Opus ra sao, mà là khi nào tầng open-weight sẽ khiến tầng cloud trở nên vô nghĩa với phần lớn workload
Trong khi mọi người đều chạy theo SOTA, thì tôi đang xử lý toàn bộ công việc coding với MiniMax M2.5 bằng nhiều phiên song song, chỉ tốn 10 USD mỗi tháng và gần như không vướng giới hạn nào
Tôi cũng đã xem tài liệu context caching của Qwen rồi thử cùng lúc Opus, Codex và Qwen, và đúng là Qwen tỏ ra mạnh trong nhiều tác vụ coding. Tuy vậy, điều tôi quan tâm nhất là cách nó hoạt động trong các phiên kéo dài. Qwen quảng bá context window lớn, nhưng hiệu quả long-context thực tế dường như phụ thuộc rất nhiều vào cách làm context caching. Theo tài liệu chính thức, họ hỗ trợ cả implicit lẫn explicit caching, nhưng TTL chỉ ngắn ở mức vài phút, lại còn có các ràng buộc như matching theo prefix và điều kiện số token tối thiểu. Vì những ràng buộc đó, trong các workflow mà ngữ cảnh liên tục phình ra như coding agent, việc tái sử dụng cache có thể không hiệu quả như kỳ vọng. Thành ra dù giá theo token trông có vẻ thấp, trong các phiên dài thì cache hit rate có thể giảm, việc tính toán lại tăng lên, và chi phí cảm nhận thực tế lại cao hơn. Dù vậy, với các tác vụ liên quan đến bảo mật thì cá nhân tôi từng thấy Qwen làm tốt hơn Opus. Theo kinh nghiệm của tôi, Qwen làm tốt hơn Opus rất nhiều ở các tác vụ ngắn như mức method hay function riêng lẻ, nhưng xét toàn bộ trải nghiệm coding thì nó giống một trình sinh ở cấp hàm hơn là một trợ lý coding tự động end-to-end như Claude
Khi phía Qwen đem so với Opus 4.5, tôi thấy hơi khó để tiếp nhận điều đó một cách thiện chí. Tôi hiểu chuyện bỏ qua Opus 4.7 vì nó còn quá mới, nhưng Opus 4.6 thì đã ra được một thời gian khá lâu rồi
Gần đây nhìn vào các nhà cung cấp Trung Quốc, tôi thấy có một mô thức. Thứ nhất là họ đang nghiêng sang giữ model ở dạng closed source, và thứ hai là họ tăng giá khá mạnh. Trong một số trường hợp còn tăng gần 100%
Điều thú vị là bạn có thể biết rất rõ cả họ model Qwen chạy local, nhưng lại hoàn toàn không biết gì về phía model cloud. Tôi chỉ biết các dòng 3.5 và một bản 3.6 nào đó, còn cái tên Plus thì đây là lần đầu tiên tôi nghe thấy