- Được công bố là mô hình đa phương thức dense 27 tỷ tham số, hỗ trợ đồng thời chế độ thinking·non-thinking cùng xử lý hình ảnh và video trong một checkpoint hợp nhất
- Hiệu năng agentic coding vượt thế hệ open-source flagship trước đó là Qwen3.5-397B-A17B trên hầu hết benchmark coding quan trọng, đồng thời vượt cả các mô hình có tổng số tham số lớn hơn tới 15 lần
- Ghi nhận SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2; đồng thời công bố thêm các chỉ số suy luận văn bản và STEM như GPQA Diamond 87.8, AIME26 94.1
- Nhờ sử dụng kiến trúc dense, không có độ phức tạp của định tuyến MoE nên triển khai đơn giản hơn, đồng thời cung cấp open weights, API, lộ trình dùng ngay qua Qwen Studio và hỗ trợ tích hợp với OpenClaw·Qwen Code·Claude Code
- Cho thấy một mô hình dense được huấn luyện tốt có thể vượt qua cả thế hệ trước lớn hơn nhiều trong các tác vụ cốt lõi của lập trình viên, đồng thời mở rộng thêm định hướng agentic coding của dòng Qwen3.6
Tổng quan
- Qwen3.6-27B được công bố là mô hình đa phương thức dense 27 tỷ tham số, hỗ trợ đồng thời chế độ thinking và non-thinking đa phương thức
- Về hiệu năng agentic coding, mô hình này vượt Qwen3.5-397B-A17B, flagship open-source của thế hệ trước, trên các benchmark coding chủ chốt
- Việc áp dụng kiến trúc dense không có độ phức tạp của định tuyến MoE giúp triển khai đơn giản hơn, đồng thời mang lại hiệu năng coding hàng đầu ở quy mô thực tiễn và dễ phổ biến rộng rãi
- Có thể dùng ngay trên Qwen Studio, đồng thời cung cấp open weights cho cộng đồng và đường truy cập API
- Các đặc tính cốt lõi gồm agentic coding cấp flagship, suy luận văn bản mạnh và năng lực suy luận đa phương thức
Hiệu năng
- Qwen3.6-27B được đánh giá tổng hợp so với các mô hình chuẩn dense và MoE, ghi nhận cải thiện lớn ở các benchmark agentic coding
- Được nêu rõ là vượt cả những mô hình có tổng số tham số lớn hơn tới 15 lần
- Các hạng mục đánh giá gồm ngôn ngữ, tri thức, STEM và suy luận, vision-language, hiểu tài liệu, hiểu video, visual agent
-
Ngôn ngữ
- Chỉ với 27 tỷ tham số, mô hình đã vượt Qwen3.5-397B-A17B trên toàn bộ benchmark coding quan trọng
- SWE-bench Verified 77.2 so với 76.2
- SWE-bench Pro 53.5 so với 50.9
- Terminal-Bench 2.0 59.3 so với 52.5
- SkillsBench 48.2 so với 30.0
- Cũng dẫn trước đáng kể các mô hình dense khác cùng quy mô
- Ở các bài toán suy luận, mô hình đạt 87.8 điểm GPQA Diamond, mức điểm có thể cạnh tranh với các mô hình lớn hơn công ty này nhiều lần
- Bảng chi tiết gồm so sánh giữa Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B và Qwen3.6-27B
- Các chỉ số chính trong mục Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Các chỉ số chính trong mục Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Các chỉ số chính trong mục STEM và suy luận
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Chỉ với 27 tỷ tham số, mô hình đã vượt Qwen3.5-397B-A17B trên toàn bộ benchmark coding quan trọng
-
Thiết lập đánh giá ngôn ngữ
- SWE-Bench Series dùng agent scaffold nội bộ cùng công cụ bash và chỉnh sửa tệp, với temp 1.0, top_p 0.95, cửa sổ ngữ cảnh 200K
- Tất cả mô hình chuẩn đều được đánh giá trên refined benchmark đã chỉnh sửa một số tác vụ có vấn đề trong bộ SWE-bench Pro công khai
- Terminal-Bench 2.0 dùng Harbor hoặc harness Terminus-2
- timeout 3 giờ, 32 CPU, 48 GB RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- Trung bình của 5 lần chạy
- SkillsBench đánh giá 78 tác vụ bằng OpenCode
- Dùng tập con self-contained đã loại các tác vụ phụ thuộc API
- Trung bình của 5 lần chạy
- Đánh giá các mô hình khác trên NL2Repo dùng Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench là benchmark Claw agent dựa trên phân bố người dùng thực
- temp 0.6, ctx 256K
- QwenWebBench là benchmark nội bộ cho sinh mã frontend
- Cấu hình song ngữ EN và CN
- Gồm 7 hạng mục: Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D
- Đánh giá độ phù hợp giữa mã và kết quả hiển thị bằng auto-render và multimodal judge
- Dùng hệ thống đánh giá BT hoặc Elo
- AIME 26 dùng toàn bộ AIME 2026 I và II
- Có lưu ý rằng điểm số có thể khác với ghi chú của Qwen 3.5
- SWE-Bench Series dùng agent scaffold nội bộ cùng công cụ bash và chỉnh sửa tệp, với temp 1.0, top_p 0.95, cửa sổ ngữ cảnh 200K
-
Vision-language
- Qwen3.6-27B hỗ trợ đồng thời chế độ thinking và non-thinking vision-language trong một checkpoint hợp nhất duy nhất
- Có thể xử lý hình ảnh và video cùng với văn bản
- Hỗ trợ suy luận đa phương thức, hiểu tài liệu và các tác vụ visual question answering
- Bảng so sánh được trình bày theo các mốc Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B và Qwen3.6-27B
-
STEM và câu đố
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA tổng quát
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Hiểu tài liệu
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Trí tuệ không gian
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Hiểu video
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Ghi chú
- Ô trống (--) trong bảng nghĩa là chưa có điểm hoặc không áp dụng
Cách sử dụng Qwen3.6-27B
- Có nêu rõ rằng hỗ trợ Alibaba Cloud Model Studio sẽ sớm được cung cấp
- Cung cấp open weights trên Hugging Face và ModelScope, cho phép self-hosting
- Đồng thời có đường sử dụng qua Alibaba Cloud Model Studio API và trải nghiệm ngay trên Qwen Studio
- Hỗ trợ tích hợp với các trợ lý coding bên thứ ba như OpenClaw, Claude Code, Qwen Code
- Có đề cập đến việc đơn giản hóa workflow phát triển và hỗ trợ context-aware coding experience
-
Sử dụng API
- Bản phát hành này hỗ trợ tính năng
preserve_thinking - Đây là tính năng giữ lại toàn bộ nội dung thinking được tạo ra ở mọi lượt trước đó trong hội thoại, và được khuyến nghị cho agentic task
- Bản phát hành này hỗ trợ tính năng
-
Alibaba Cloud Model Studio
- Hỗ trợ chat completions và responses API tương thích chuẩn OpenAI
- Đồng thời hỗ trợ giao diện API tương thích Anthropic
- Tài liệu chính thức cung cấp ví dụ biến môi trường
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- Cũng đưa ra ví dụ Base URL theo khu vực
- Trong mã ví dụ, tên mô hình mặc định là
qwen3.6-27b extra_bodygồmenable_thinking: Truepreserve_thinking: Trueđược hiển thị ở dạng chú thích
- Có ví dụ thu thập riêng reasoning_content và answer content trong phản hồi streaming
- Để biết thêm thông tin, tài liệu hướng dẫn tham chiếu đến liên kết API doc
-
Coding & Agents
- Qwen3.6-27B có năng lực agentic coding và có thể tích hợp mượt mà với OpenClaw, Claude Code và Qwen Code
-
OpenClaw
- OpenClaw là AI coding agent open-source self-hosted, trước đây có tên là Moltbot hoặc Clawdbot
- Khi kết nối với Model Studio, công cụ này mang lại trải nghiệm agentic coding đầy đủ ngay trong terminal
- Script khởi động gồm Node.js 22+, chạy script cài đặt, thiết lập
DASHSCOPE_API_KEY, rồi chạyopenclaw dashboardhoặcopenclaw tui - Khi dùng lần đầu cần chỉnh sửa
~/.openclaw/openclaw.json- Có nêu rõ không được ghi đè toàn bộ tệp
- Chỉ nên gộp các trường cần thiết để giữ nguyên cấu hình hiện có
- Cấu hình mẫu gồm provider
modelstudiovà đăng ký mô hìnhqwen3.6-27bapilàopenai-completions- Giá trị
reasoninglà true - Kiểu đầu vào là
text,image contextWindowlà 131072maxTokenslà 16384- Mô hình primary mặc định là
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code là AI agent open-source cho terminal, được tối ưu sâu cho Qwen Series
- Script khởi động gồm Node.js 20+, cài
@qwen-code/qwen-code@latest, rồi chạyqwen - Có ví dụ dùng các lệnh
/help,/authtrong phiên làm việc - Khi dùng lần đầu sẽ hiện lời nhắc đăng nhập, và có thể chuyển phương thức xác thực bằng
/auth
-
Claude Code
- Qwen APIs cũng hỗ trợ giao thức Anthropic API
- Có nêu rõ rằng có thể dùng cùng các công cụ như Claude Code
- Ví dụ cấu hình gồm các biến môi trường sau
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- Lệnh chạy là
claude
Kết luận
- Một mô hình dense được huấn luyện tốt có thể vượt qua cả thế hệ trước lớn hơn rất nhiều ở những bài toán quan trọng với lập trình viên, và Qwen3.6-27B đã chứng minh điều đó
- Với quy mô 27 tỷ tham số, mô hình vẫn vượt Qwen3.5-397B-A17B trên toàn bộ benchmark agentic coding quan trọng
- Cấu trúc đơn giản hơn cho triển khai và phục vụ, đồng thời dòng open-source Qwen3.6 nay có thêm Qwen3.6-27B để mở rộng dải cấu hình mô hình
4 bình luận
Phải là a3b thì may ra mới chạy được cục bộ một chút chứ haha
Benchmark thì nghe nói khá tốt, nhưng trong sử dụng thực tế có vẻ vẫn chưa đến mức đủ dùng như một coding agent.
Tôi đã thử dùng và không có vấn đề lớn nào với agentic coding. Tuy nhiên, đúng như bạn nói, khi dùng thực tế + lập trình thông thường thì chắc chắn vẫn kém hơn các mô hình có số tham số lớn hơn. Các giá trị thiết lập cũng khác với 3.5 và còn được bổ sung chế độ
preserve_thinking, nên xin lưu ý. Với mức lượng tử hóa 4bit của bản 27B thì dùng cục bộ cũng không có vấn đề gì.Ý kiến Hacker News
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mbằngllama-server, còn model 35B-A3B thì khoảng 25 t/s. Để so sánh, trên A100 hai con này lần lượt khoảng 41 t/s và 97 t/s. Tôi chưa test dài với 27B, nhưng 35B-A3B thường trật bánh khi context vượt 15k~20k token. Có thể giao các việc cơ bản một cách ổn định, nhưng tôi không xem nó ở cấp frontier model