Đây là mô hình ngôn ngữ lớn được đội ngũ Qwen của Alibaba công bố mã nguồn mở vào tháng 4 năm 2026. Mô hình sử dụng kiến trúc MoE (Mixture-of-Experts). MoE là cách đặt nhiều "mạng chuyên gia" bên trong mô hình và chỉ chọn kích hoạt một phần trong số đó mỗi khi có đầu vào. Tổng số tham số là 35 tỷ, nhưng khi suy luận thực tế chỉ dùng 3 tỷ, nên mô hình vận hành chỉ với khoảng 8,6% tổng dung lượng. Đây cũng là mô hình đa phương thức có thể hiểu không chỉ văn bản mà cả hình ảnh và video, đồng thời hỗ trợ cả chế độ Thinking để hiển thị quá trình suy luận và chế độ Non-thinking để trả lời trực tiếp.
Nội dung chính
- So với thế hệ trước Qwen3.5-35B-A3B, hiệu năng coding agentic (cách lập trình tự chủ nơi AI tự khám phá tệp, chạy terminal, chẩn đoán và sửa lỗi) đã được cải thiện mạnh
- Đạt 73,4 điểm trên SWE-bench Verified (đánh giá sửa lỗi phần mềm thực tế) và 51,5 điểm trên Terminal-Bench 2.0, vượt Qwen3.5-27B — mô hình Dense có số tham số lớn hơn nhiều (kiến trúc truyền thống dùng toàn bộ tham số) — ở nhiều hạng mục
- Đạt 92,7 điểm ở kỳ thi toán học AIME 2026 và 80,4 điểm ở bài kiểm tra coding thời gian thực LiveCodeBench v6, ngang tầm mô hình Dense 27B
- Trong mảng đa phương thức, đạt 81,7 điểm trên MMMU và 85,3 điểm trên RealWorldQA, vượt Claude Sonnet 4.5 (mô hình thương mại trả phí), đồng thời đặc biệt mạnh về trí tuệ không gian như nhận biết vị trí vật thể trong ảnh (RefCOCO 92.0)
- Có thể tích hợp ngay với các công cụ coding bên thứ ba như OpenClaw, Claude Code, Qwen Code, đồng thời tương thích với giao thức API của Anthropic
Ưu điểm
- Chỉ với 3B tham số hoạt động nhưng cho hiệu năng tương đương các mô hình Dense 27~31B, nên tiêu tốn ít bộ nhớ GPU và điện năng hơn, có thể vận hành cả trong môi trường quy mô nhỏ
- Thuộc nhóm mạnh hàng đầu cùng phân khúc trên hầu hết benchmark coding agentic
- Xử lý văn bản, hình ảnh, video và tài liệu trong một mô hình duy nhất
- Hoàn toàn mã nguồn mở, ai cũng có thể tải về, huấn luyện bổ sung và tùy biến
Nhược điểm
- Ở các tác vụ agent tổng quát (VITA-Bench 35,6 điểm), mô hình vẫn thấp hơn bản Dense 27B đời trước (41,8 điểm), nên vẫn còn dư địa cải thiện
- Ở suy luận học thuật độ khó cao nhất (HLE 21,4 điểm), vẫn thua các mô hình Dense cỡ lớn (24,3 điểm)
- Hơi lép vế trên benchmark tri thức MMLU-Pro
- API hiện vẫn ở trạng thái "coming soon", nên khó áp dụng ngay cho dịch vụ quy mô lớn
Điểm khác biệt
- Vượt xa Google Gemma4-26B-A4B, mô hình dùng cấu trúc MoE tương tự, trên gần như mọi benchmark
- Ở các tác vụ agent, tính năng preserve_thinking giúp giữ lại nội dung suy luận của các lượt hội thoại trước, có lợi cho việc duy trì ngữ cảnh dài hạn
- Tương thích cả với giao thức API của Anthropic, nên có thể gia nhập ngay hệ sinh thái Claude Code
Hàm ý
- Kết quả đạt được với chỉ 3B tham số hoạt động nhưng ngang ngửa mô hình 27B cho thấy kiến trúc MoE đang trở thành tiêu chuẩn mới về hiệu quả AI
- Khi một mô hình mã nguồn mở vượt cả các mô hình trả phí như Claude Sonnet 4.5 ở nhiều hạng mục, động lực để doanh nghiệp chuyển từ API đắt đỏ sang tự host đang mạnh lên rõ rệt
- Việc benchmark được cấu thành với tỷ trọng rất cao dành cho coding agentic cho thấy ngành đang xem năng lực phát triển phần mềm tự chủ của AI là tiêu chí đánh giá quan trọng nhất
2 bình luận
Theo kết quả thử nghiệm của viện nghiên cứu chúng tôi, đây là một mô hình do một “đội ngũ Qwen không còn là Qwen” vội vã tung ra chỉ để chạy theo benchmark nhằm xoa dịu bất ổn của thị trường. Nó bị ám ảnh quá mức với việc dùng công cụ. Chúng tôi xem đây là một bước thụt lùi so với 3.5.
Tôi đang chạy thử bản Q3.5 trên Mac, và quả thật mức cải thiện về độ thông minh so với các thế hệ trước rất ấn tượng. Việc đã bắt kịp cả Oss 120b thì đủ nói lên tất cả rồi.