- Đây là mô hình nguồn mở với kiến trúc Mixture-of-Experts (MoE) thưa chỉ kích hoạt 3 tỷ trong tổng số 35 tỷ tham số, đồng thời đạt được cả hiệu quả lẫn hiệu năng
- So với thế hệ trước, năng lực lập trình tác tử đã được cải thiện đáng kể, đạt mức có thể cạnh tranh với các mô hình dense lớn như Qwen3.5-27B hay Gemma4-31B
- Mô hình ghi điểm cao trên các benchmark lập trình quan trọng như SWE-bench, Terminal-Bench, Claw-Eval, đồng thời đạt hiệu năng ở mức Claude Sonnet 4.5 trong các tác vụ đa phương thức
- Có thể truy cập trọng số công khai và API thông qua Alibaba Cloud Model Studio API, Hugging Face và ModelScope, đồng thời hỗ trợ tích hợp với nhiều công cụ lập trình như OpenClaw và Claude Code
- Với 3 tỷ tham số hoạt hóa, mô hình đưa ra một chuẩn mực mới cho mô hình mở hiệu quả có thể sánh ngang các mô hình lớn
Tổng quan về Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B là mô hình Mixture-of-Experts (MoE) thưa chỉ kích hoạt 3 tỷ trong tổng số 35 tỷ tham số, là mô hình nguồn mở vừa có hiệu quả vừa có hiệu năng
- So với phiên bản trước là Qwen3.5-35B-A3B, hiệu năng lập trình tác tử (agentic coding) được cải thiện mạnh, đạt mức có thể cạnh tranh với các mô hình dense lớn như Qwen3.5-27B hay Gemma4-31B
- Hỗ trợ cả chế độ suy luận đa phương thức và không suy luận, và được công bố qua Qwen Studio, API, Hugging Face và ModelScope
- Có thể sử dụng mô hình theo kiểu hội thoại trong Qwen Studio, gọi qua Alibaba Cloud Model Studio API(
qwen3.6-flash) hoặc tự host trực tiếp
Đánh giá hiệu năng
-
Hiệu năng ngôn ngữ và lập trình
- Qwen3.6-35B-A3B chỉ với 3 tỷ tham số hoạt hóa đã vượt Qwen3.5-27B (mô hình dense 27 tỷ tham số) trên nhiều benchmark lập trình quan trọng
- Ghi điểm cao như SWE-bench Verified 73.4, Terminal-Bench 51.5, trung bình Claw-Eval 68.7
- Trên QwenWebBench (benchmark tạo mã web), mô hình đạt 1397 điểm, thuộc nhóm cao nhất trong các mô hình cùng hạng
- Trên các benchmark tác tử tổng quát (MCPMark, MCP-Atlas, WideSearch, v.v.), mô hình cũng cho kết quả vượt trội so với đối thủ
- Đồng thời duy trì độ chính xác cao trên các bài kiểm tra kiến thức và suy luận như MMLU-Pro, GPQA, AIME26
-
Môi trường đánh giá
- Dòng SWE-Bench được đánh giá dựa trên scaffold tác tử nội bộ (công cụ bash + file-edit) trong cửa sổ ngữ cảnh 200K
- Terminal-Bench 2.0 lấy trung bình 5 lần chạy trong môi trường giới hạn 3 giờ, 32 CPU/48GB RAM
- SkillsBench được đánh giá trên 78 tác vụ, không gồm các công việc phụ thuộc API
- QwenClawBench và QwenWebBench là các benchmark nội bộ dựa trên phân bố sử dụng thực tế, phản ánh môi trường người dùng thật
-
Hiệu năng thị giác-ngôn ngữ
- Qwen3.6-35B-A3B là mô hình đa phương thức tự nhiên, chỉ với 3 tỷ tham số hoạt hóa đã đạt hiệu năng ngang mức Claude Sonnet 4.5
- Trên RefCOCO (nhận thức không gian) đạt 92.0, ODInW13 đạt 50.8, cho thấy thế mạnh về trí tuệ không gian
- Ghi điểm cao trên nhiều tác vụ thị giác-ngôn ngữ như RealWorldQA 85.3, MMBench EN-DEV 92.8, OmniDocBench1.5 89.9
- Trên các benchmark hiểu video (VideoMME, VideoMMMU, MLVU, v.v.), mô hình cũng duy trì điểm trong khoảng 80~86, cho thấy hiệu năng ổn định
Ứng dụng của Qwen3.6-35B-A3B
-
Triển khai và truy cập
- Có thể sử dụng qua Alibaba Cloud Model Studio API(
qwen3.6-flash), đồng thời tải xuống trọng số mở từ Hugging Face và ModelScope
- Có thể trải nghiệm ngay trong Qwen Studio, đồng thời hỗ trợ tích hợp với các trợ lý lập trình bên thứ ba như OpenClaw, Claude Code và Qwen Code
-
Sử dụng API
- Hỗ trợ tính năng
preserve_thinking, cho phép giữ lại nội dung thinking của cuộc hội thoại trước đó, phù hợp với các tác vụ tác tử
- Alibaba Cloud Model Studio cung cấp chat completions API tương thích với đặc tả API của OpenAI và Anthropic
- Trong mã ví dụ, có thể dùng tùy chọn
enable_thinking để in tách riêng quá trình suy luận (reasoning trace) và câu trả lời cuối cùng
-
Tích hợp OpenClaw
- Qwen3.6-35B-A3B tương thích với OpenClaw (trước đây là Moltbot/Clawdbot), có thể kết nối với Model Studio để cung cấp môi trường lập trình tác tử trên terminal
- Dùng bằng cách gộp thông tin API của Model Studio vào tệp cấu hình (
~/.openclaw/openclaw.json)
- Có thể cài đặt và chạy trong môi trường Node.js 22 trở lên
-
Tích hợp Qwen Code
- Hoàn toàn tương thích với Qwen Code (AI agent nguồn mở cho terminal) được tối ưu cho dòng Qwen
- Sau khi cài đặt trên Node.js 20 trở lên, thực hiện quy trình xác thực bằng lệnh
/auth
-
Tích hợp Claude Code
- Do hỗ trợ giao thức Anthropic API, mô hình cũng có thể dùng trực tiếp trong Claude Code
- Chạy CLI sau khi thiết lập biến môi trường
ANTHROPIC_MODEL="qwen3.6-flash"
Tóm tắt và triển vọng
- Qwen3.6-35B-A3B chứng minh rằng ngay cả với kiến trúc MoE thưa, mô hình vẫn có thể đạt năng lực lập trình tác tử và suy luận ngang các mô hình dense lớn
- Với 3 tỷ tham số hoạt hóa, mô hình đồng thời đạt cả hiệu quả lẫn hiệu năng, đồng thời cho kết quả xuất sắc trên các benchmark đa phương thức
- Mô hình được công bố dưới dạng checkpoint nguồn mở hoàn chỉnh, qua đó đề xuất một chuẩn mực mới cho mô hình mở hiệu quả
- Đội ngũ Qwen dự kiến sẽ tiếp tục mở rộng family nguồn mở Qwen3.6 và kỳ vọng vào phản hồi cũng như cách cộng đồng ứng dụng mô hình
Thông tin trích dẫn
1 bình luận
Ý kiến trên Hacker News
Tôi đã thử chạy phiên bản Unsloth 20.9GB GGUF trên laptop bằng LM Studio
Liên kết model
Thật bất ngờ là nó vẽ chim bồ nông đi xe đạp tốt hơn cả Opus 4.7
Xem bài viết so sánh của Simon Willison
Kết quả của tôi có mặt trời và mây trên trời, cỏ dạng các đường xanh lá mảnh, và hiệu ứng mặt trời có hào quang
Cũng có kiểu thể hiện “luồng không khí” tương tự kết quả của Simon, nhưng rốt cuộc điều quan trọng vẫn là chim bồ nông và chiếc xe đạp
Tôi dùng nó trong dự án Shoggoth.db cho tác vụ duyệt wiki + tự động xây DB
Tôi cảm nhận rõ khả năng khám phá các sinh vật mới đã được cải thiện so với Qwen3.5
Tốc độ cũng tăng lên khoảng 140 token/s, và chạy ổn định trên RTX 4090 không cần offload bộ nhớ
Tuy nhiên, để tránh xung đột multimodal thì phải dùng tùy chọn
--no-mmproj-offloadBan đầu ý tưởng là đánh giá độ sáng tạo của model bằng những prompt kỳ quặc mà không ai nghĩ tới, nhưng giờ có cảm giác nó đã trở thành benchmark nội bộ rồi
Nó ngồi trên lốp xe, vị trí mỏ cũng kỳ lạ, và tỷ lệ nan hoa với chân rất gượng gạo
Kính râm cũng trong mờ nên chỉ nhìn thấy một mắt
Dễ thương thì có dễ thương, nhưng các nơ cổ và phụ kiện không được yêu cầu lại là điểm trừ theo tôi
Kết quả của Opus ít hào nhoáng hơn nhưng chính xác hơn
Cuối cùng thì tôi vẫn có cảm giác các model hiện nay chỉ là bộ sinh câu xác suất mà thôi
Thật mừng khi thấy đội Qwen vẫn tiếp tục công bố trọng số mở
Tin liên quan 1, Tin 2
Việc dự án vẫn tiếp tục sau khi các nhân sự chủ chốt như Junyang Lin rời đi là điều khá ấn tượng
Các model kích thước nhỏ có khả năng cao sẽ sớm được công bố, nhưng model chủ lực 397A17B có vẻ không nằm trong số đó
Unsloth đã có sẵn bản lượng tử hóa và chuyển đổi xong
Liên kết Hugging Face
Nên quay lại kiểm tra sau khoảng một tuần để lấy bản ổn định hơn
Đôi khi lỗi ban đầu khiến một model tốt bị đánh giá thấp
Tôi nghĩ quá trình lượng tử hóa phức tạp và có rủi ro suy giảm chất lượng, nên tốt hơn là chính bên phát triển làm việc đó
Một bản quant lỗi cũng có thể làm hỏng danh tiếng model
và lợi ích của một định dạng tốt là gì
Nếu giải thích luôn cả khái niệm quantization thì càng tốt
ollama run claudehay khôngTôi rất vui với bản phát hành lần này của đội Qwen
Model coding open-weight cỡ nhỏ rất hữu ích để tạo agent tùy biến cho các đội phát triển trong những ngành cụ thể (ví dụ: tài chính, y tế) nơi quyền truy cập cloud bị hạn chế
Ở phương Tây gần như không ai phục vụ thị trường này, có lẽ chỉ Mistral là ngoại lệ
Các công ty AI khác cho cảm giác chỉ nhắm đến lợi nhuận ngắn hạn
Nếu làm việc nghiêm túc thì nên đầu tư phần cứng có thể tự chạy model lớn hơn
Với thiết bị khoảng 100.000 USD cũng có thể chạy các model lớn hơn on-premise
Đặc tính embedding ngôn ngữ của Qwen khá thú vị
Tweet phân tích liên quan
Người ta nói Qwen nằm trong một basin thiên về thi cử khác với các model khác
Một lãnh đạo Qwen từng đăng poll trên Twitter hỏi muốn model nào được open source,
nhưng dù bản 27B là phổ biến nhất thì cuối cùng vẫn không được phát hành
Kiến trúc A3B có tốc độ chưng cất nhanh nên có thể sẽ sớm ra mắt
Bản sau nhanh hơn và tạo cảm giác ‘thông minh’ hơn
Với cùng lượng VRAM, model dense 27B có thể xử lý context lớn hơn nên chất lượng sẽ cao hơn
Trong các bài test local, tôi đã dùng Qwen3.5-35B-A3B khá nhiều,
và đó là model mạnh nhất có thể chạy trên máy của tôi
Đặc biệt tôi rất ấn tượng với các bản quant Mudler APEX-I-Quality và Byteshape Q3_K_S-3.40bpw
Trên RTX 3060 12GB, chúng giúp dư bộ nhớ hơn và tốc độ tăng lên trên 40 t/s
Nó còn tự cải thiện được cả những dự án trước đây từng bị mắc kẹt
Đây là kiểu bản phát hành phần mềm AI mà tôi mong chờ nhất
Không có màn marketing thổi phồng rủi ro, không thu phí thuê bao, chỉ đơn giản là một model khiến tôi muốn dùng thử
để trở nên thực dụng cho hầu hết các trường hợp sử dụng
Tôi tò mò mọi người thực sự dùng các model local như thế nào
Tôi muốn biết chúng mang lại giá trị gì hơn so với việc thuê token từ Anthropic hay OpenAI
Định dạng tài liệu rất lộn xộn nên trước đây tôi phải dùng pipeline dựa trên luật khá phức tạp,
còn giờ thì có thể trích xuất bằng cách kết hợp ngôn ngữ + thị giác nhờ năng lực multimodal
Nó đủ dùng cho phân tích video, còn tóm tắt văn bản hay dịch thì tôi xử lý bằng model lớn hơn
Nếu không cần thời gian thực thì chất lượng quan trọng hơn tốc độ, nên rất hợp để xử lý batch
Tôi muốn một model self-hosting hoàn toàn riêng tư
Tôi đã quá mệt với chuyện dịch vụ SaaS bị ngừng, nên tôi nghĩ LLM cuối cùng cũng phải đi theo hướng tự host
Có thể tận dụng GPU 100% mà không bị giới hạn token hay giới hạn tốc độ
Ví dụ tôi dùng Gemma 4 làm trình dịch offline trên iPhone,
nhanh và chính xác hơn Apple Translate
Với những việc nhỏ như chỉnh sửa JSON, model local hiệu quả hơn hẳn