4 điểm bởi GN⁺ 5 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Đây là mô hình nguồn mở với kiến trúc Mixture-of-Experts (MoE) thưa chỉ kích hoạt 3 tỷ trong tổng số 35 tỷ tham số, đồng thời đạt được cả hiệu quả lẫn hiệu năng
  • So với thế hệ trước, năng lực lập trình tác tử đã được cải thiện đáng kể, đạt mức có thể cạnh tranh với các mô hình dense lớn như Qwen3.5-27B hay Gemma4-31B
  • Mô hình ghi điểm cao trên các benchmark lập trình quan trọng như SWE-bench, Terminal-Bench, Claw-Eval, đồng thời đạt hiệu năng ở mức Claude Sonnet 4.5 trong các tác vụ đa phương thức
  • Có thể truy cập trọng số công khai và API thông qua Alibaba Cloud Model Studio API, Hugging Face và ModelScope, đồng thời hỗ trợ tích hợp với nhiều công cụ lập trình như OpenClaw và Claude Code
  • Với 3 tỷ tham số hoạt hóa, mô hình đưa ra một chuẩn mực mới cho mô hình mở hiệu quả có thể sánh ngang các mô hình lớn

Tổng quan về Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B là mô hình Mixture-of-Experts (MoE) thưa chỉ kích hoạt 3 tỷ trong tổng số 35 tỷ tham số, là mô hình nguồn mở vừa có hiệu quả vừa có hiệu năng
  • So với phiên bản trước là Qwen3.5-35B-A3B, hiệu năng lập trình tác tử (agentic coding) được cải thiện mạnh, đạt mức có thể cạnh tranh với các mô hình dense lớn như Qwen3.5-27B hay Gemma4-31B
  • Hỗ trợ cả chế độ suy luận đa phương thức và không suy luận, và được công bố qua Qwen Studio, API, Hugging Face và ModelScope
  • Có thể sử dụng mô hình theo kiểu hội thoại trong Qwen Studio, gọi qua Alibaba Cloud Model Studio API(qwen3.6-flash) hoặc tự host trực tiếp

Đánh giá hiệu năng

  • Hiệu năng ngôn ngữ và lập trình

    • Qwen3.6-35B-A3B chỉ với 3 tỷ tham số hoạt hóa đã vượt Qwen3.5-27B (mô hình dense 27 tỷ tham số) trên nhiều benchmark lập trình quan trọng
    • Ghi điểm cao như SWE-bench Verified 73.4, Terminal-Bench 51.5, trung bình Claw-Eval 68.7
    • Trên QwenWebBench (benchmark tạo mã web), mô hình đạt 1397 điểm, thuộc nhóm cao nhất trong các mô hình cùng hạng
    • Trên các benchmark tác tử tổng quát (MCPMark, MCP-Atlas, WideSearch, v.v.), mô hình cũng cho kết quả vượt trội so với đối thủ
    • Đồng thời duy trì độ chính xác cao trên các bài kiểm tra kiến thức và suy luận như MMLU-Pro, GPQA, AIME26
  • Môi trường đánh giá

    • Dòng SWE-Bench được đánh giá dựa trên scaffold tác tử nội bộ (công cụ bash + file-edit) trong cửa sổ ngữ cảnh 200K
    • Terminal-Bench 2.0 lấy trung bình 5 lần chạy trong môi trường giới hạn 3 giờ, 32 CPU/48GB RAM
    • SkillsBench được đánh giá trên 78 tác vụ, không gồm các công việc phụ thuộc API
    • QwenClawBench và QwenWebBench là các benchmark nội bộ dựa trên phân bố sử dụng thực tế, phản ánh môi trường người dùng thật
  • Hiệu năng thị giác-ngôn ngữ

    • Qwen3.6-35B-A3B là mô hình đa phương thức tự nhiên, chỉ với 3 tỷ tham số hoạt hóa đã đạt hiệu năng ngang mức Claude Sonnet 4.5
    • Trên RefCOCO (nhận thức không gian) đạt 92.0, ODInW13 đạt 50.8, cho thấy thế mạnh về trí tuệ không gian
    • Ghi điểm cao trên nhiều tác vụ thị giác-ngôn ngữ như RealWorldQA 85.3, MMBench EN-DEV 92.8, OmniDocBench1.5 89.9
    • Trên các benchmark hiểu video (VideoMME, VideoMMMU, MLVU, v.v.), mô hình cũng duy trì điểm trong khoảng 80~86, cho thấy hiệu năng ổn định

Ứng dụng của Qwen3.6-35B-A3B

  • Triển khai và truy cập

    • Có thể sử dụng qua Alibaba Cloud Model Studio API(qwen3.6-flash), đồng thời tải xuống trọng số mở từ Hugging Face và ModelScope
    • Có thể trải nghiệm ngay trong Qwen Studio, đồng thời hỗ trợ tích hợp với các trợ lý lập trình bên thứ ba như OpenClaw, Claude Code và Qwen Code
  • Sử dụng API

    • Hỗ trợ tính năng preserve_thinking, cho phép giữ lại nội dung thinking của cuộc hội thoại trước đó, phù hợp với các tác vụ tác tử
    • Alibaba Cloud Model Studio cung cấp chat completions API tương thích với đặc tả API của OpenAI và Anthropic
    • Trong mã ví dụ, có thể dùng tùy chọn enable_thinking để in tách riêng quá trình suy luận (reasoning trace) và câu trả lời cuối cùng
  • Tích hợp OpenClaw

    • Qwen3.6-35B-A3B tương thích với OpenClaw (trước đây là Moltbot/Clawdbot), có thể kết nối với Model Studio để cung cấp môi trường lập trình tác tử trên terminal
    • Dùng bằng cách gộp thông tin API của Model Studio vào tệp cấu hình (~/.openclaw/openclaw.json)
    • Có thể cài đặt và chạy trong môi trường Node.js 22 trở lên
  • Tích hợp Qwen Code

    • Hoàn toàn tương thích với Qwen Code (AI agent nguồn mở cho terminal) được tối ưu cho dòng Qwen
    • Sau khi cài đặt trên Node.js 20 trở lên, thực hiện quy trình xác thực bằng lệnh /auth
  • Tích hợp Claude Code

    • Do hỗ trợ giao thức Anthropic API, mô hình cũng có thể dùng trực tiếp trong Claude Code
    • Chạy CLI sau khi thiết lập biến môi trường ANTHROPIC_MODEL="qwen3.6-flash"

Tóm tắt và triển vọng

  • Qwen3.6-35B-A3B chứng minh rằng ngay cả với kiến trúc MoE thưa, mô hình vẫn có thể đạt năng lực lập trình tác tử và suy luận ngang các mô hình dense lớn
  • Với 3 tỷ tham số hoạt hóa, mô hình đồng thời đạt cả hiệu quả lẫn hiệu năng, đồng thời cho kết quả xuất sắc trên các benchmark đa phương thức
  • Mô hình được công bố dưới dạng checkpoint nguồn mở hoàn chỉnh, qua đó đề xuất một chuẩn mực mới cho mô hình mở hiệu quả
  • Đội ngũ Qwen dự kiến sẽ tiếp tục mở rộng family nguồn mở Qwen3.6 và kỳ vọng vào phản hồi cũng như cách cộng đồng ứng dụng mô hình

Thông tin trích dẫn

1 bình luận

 
Ý kiến trên Hacker News
  • Tôi đã thử chạy phiên bản Unsloth 20.9GB GGUF trên laptop bằng LM Studio
    Liên kết model
    Thật bất ngờ là nó vẽ chim bồ nông đi xe đạp tốt hơn cả Opus 4.7
    Xem bài viết so sánh của Simon Willison

    • Tôi đã tái hiện lại với cùng model (M1 Max 64GB, dưới 90 giây) — ảnh kết quả
      Kết quả của tôi có mặt trời và mây trên trời, cỏ dạng các đường xanh lá mảnh, và hiệu ứng mặt trời có hào quang
      Cũng có kiểu thể hiện “luồng không khí” tương tự kết quả của Simon, nhưng rốt cuộc điều quan trọng vẫn là chim bồ nông và chiếc xe đạp
    • Tôi đã thử nhờ có liên kết GGUF
      Tôi dùng nó trong dự án Shoggoth.db cho tác vụ duyệt wiki + tự động xây DB
      Tôi cảm nhận rõ khả năng khám phá các sinh vật mới đã được cải thiện so với Qwen3.5
      Tốc độ cũng tăng lên khoảng 140 token/s, và chạy ổn định trên RTX 4090 không cần offload bộ nhớ
      Tuy nhiên, để tránh xung đột multimodal thì phải dùng tùy chọn --no-mmproj-offload
    • Tôi tự hỏi đến bao giờ các bài test kiểu ‘chim bồ nông đi xe đạp’ mới trở nên vô dụng
      Ban đầu ý tưởng là đánh giá độ sáng tạo của model bằng những prompt kỳ quặc mà không ai nghĩ tới, nhưng giờ có cảm giác nó đã trở thành benchmark nội bộ rồi
    • Tôi không hiểu vì sao bức vẽ hồng hạc của Qwen lại thắng
      Nó ngồi trên lốp xe, vị trí mỏ cũng kỳ lạ, và tỷ lệ nan hoa với chân rất gượng gạo
      Kính râm cũng trong mờ nên chỉ nhìn thấy một mắt
      Dễ thương thì có dễ thương, nhưng các nơ cổ và phụ kiện không được yêu cầu lại là điểm trừ theo tôi
      Kết quả của Opus ít hào nhoáng hơn nhưng chính xác hơn
    • Càng nhìn ảnh, tôi càng thấy world model vẫn là mảnh ghép còn thiếu
      Cuối cùng thì tôi vẫn có cảm giác các model hiện nay chỉ là bộ sinh câu xác suất mà thôi
  • Thật mừng khi thấy đội Qwen vẫn tiếp tục công bố trọng số mở
    Tin liên quan 1, Tin 2
    Việc dự án vẫn tiếp tục sau khi các nhân sự chủ chốt như Junyang Lin rời đi là điều khá ấn tượng

    • Đây chỉ là một phần trong dòng Qwen 3.6
      Các model kích thước nhỏ có khả năng cao sẽ sớm được công bố, nhưng model chủ lực 397A17B có vẻ không nằm trong số đó
    • Cá nhân tôi mong qwen-image 2.0 sẽ được công bố trọng số mở
  • Unsloth đã có sẵn bản lượng tử hóa và chuyển đổi xong
    Liên kết Hugging Face

    • Unsloth thường đưa lên các bản quant thử nghiệm rất nhanh, nhưng các bản ngay sau khi phát hành thường hay bị chỉnh sửa
      Nên quay lại kiểm tra sau khoảng một tuần để lấy bản ổn định hơn
      Đôi khi lỗi ban đầu khiến một model tốt bị đánh giá thấp
    • Tôi thắc mắc vì sao Qwen không tự phát hành model quantized
      Tôi nghĩ quá trình lượng tử hóa phức tạp và có rủi ro suy giảm chất lượng, nên tốt hơn là chính bên phát triển làm việc đó
      Một bản quant lỗi cũng có thể làm hỏng danh tiếng model
    • Tôi muốn biết yêu cầu VRAM. Không rõ GPU 16GB có chạy được không
    • Tôi muốn hiểu vì sao quantization mặc định của Qwen lại tệ, Unsloth là ai,
      lợi ích của một định dạng tốt là gì
      Nếu giải thích luôn cả khái niệm quantization thì càng tốt
    • Tôi muốn biết liệu có thể dùng model này bằng lệnh ollama run claude hay không
  • Tôi rất vui với bản phát hành lần này của đội Qwen
    Model coding open-weight cỡ nhỏ rất hữu ích để tạo agent tùy biến cho các đội phát triển trong những ngành cụ thể (ví dụ: tài chính, y tế) nơi quyền truy cập cloud bị hạn chế
    Ở phương Tây gần như không ai phục vụ thị trường này, có lẽ chỉ Mistral là ngoại lệ

    • Mistral có vẻ là công ty duy nhất theo đuổi mô hình kinh doanh bền vững
      Các công ty AI khác cho cảm giác chỉ nhắm đến lợi nhuận ngắn hạn
    • Các model mở cỡ nhỏ thì thú vị, nhưng khác đẳng cấp với các model host cỡ lớn
      Nếu làm việc nghiêm túc thì nên đầu tư phần cứng có thể tự chạy model lớn hơn
    • Tôi đồng ý, nhưng các model nhỏ như vậy vẫn chưa đủ cho mục đích công nghiệp thực tế
      Với thiết bị khoảng 100.000 USD cũng có thể chạy các model lớn hơn on-premise
    • Làm ra model cạnh tranh open-weight thì rất hay nhưng chi phí quá lớn
    • Trong các ngành bị quản lý chặt, tôi muốn biết làm sao để xác minh model không được huấn luyện trên dữ liệu độc hại
  • Đặc tính embedding ngôn ngữ của Qwen khá thú vị
    Tweet phân tích liên quan
    Người ta nói Qwen nằm trong một basin thiên về thi cử khác với các model khác

  • Một lãnh đạo Qwen từng đăng poll trên Twitter hỏi muốn model nào được open source,
    nhưng dù bản 27B là phổ biến nhất thì cuối cùng vẫn không được phát hành

    • Có thể giống đợt 3.5, họ sẽ công bố dần sau khi qua quá trình distillation
      Kiến trúc A3B có tốc độ chưng cất nhanh nên có thể sẽ sớm ra mắt
    • 27B là model dense, nên về mặt marketing kém hấp dẫn hơn 35A3B
      Bản sau nhanh hơn và tạo cảm giác ‘thông minh’ hơn
    • Có lẽ sẽ sớm được công bố thôi
    • Cá nhân tôi thấy kiến trúc MoE kém hiệu quả
      Với cùng lượng VRAM, model dense 27B có thể xử lý context lớn hơn nên chất lượng sẽ cao hơn
  • Trong các bài test local, tôi đã dùng Qwen3.5-35B-A3B khá nhiều,
    và đó là model mạnh nhất có thể chạy trên máy của tôi
    Đặc biệt tôi rất ấn tượng với các bản quant Mudler APEX-I-QualityByteshape Q3_K_S-3.40bpw
    Trên RTX 3060 12GB, chúng giúp dư bộ nhớ hơn và tốc độ tăng lên trên 40 t/s

    • Sau khi thử nhiều tác vụ, Qwen3.6 là một bước nhảy lớn hơn nhiều so với 3.5
      Nó còn tự cải thiện được cả những dự án trước đây từng bị mắc kẹt
    • Tôi muốn biết bản quant nào là tốt nhất
  • Đây là kiểu bản phát hành phần mềm AI mà tôi mong chờ nhất
    Không có màn marketing thổi phồng rủi ro, không thu phí thuê bao, chỉ đơn giản là một model khiến tôi muốn dùng thử

    • Tôi cũng nghĩ vậy. Hy vọng trong tương lai gần, model local và hiệu năng phần cứng sẽ tăng đủ nhiều
      để trở nên thực dụng cho hầu hết các trường hợp sử dụng
  • Tôi tò mò mọi người thực sự dùng các model local như thế nào
    Tôi muốn biết chúng mang lại giá trị gì hơn so với việc thuê token từ Anthropic hay OpenAI

    • Tôi đang dùng Qwen3.5-9B cho trích xuất bảng OCR cục bộ
      Định dạng tài liệu rất lộn xộn nên trước đây tôi phải dùng pipeline dựa trên luật khá phức tạp,
      còn giờ thì có thể trích xuất bằng cách kết hợp ngôn ngữ + thị giác nhờ năng lực multimodal
    • Tôi dùng Qwen3.5-4B cùng với Frigate, một NVR FOSS
      Nó đủ dùng cho phân tích video, còn tóm tắt văn bản hay dịch thì tôi xử lý bằng model lớn hơn
      Nếu không cần thời gian thực thì chất lượng quan trọng hơn tốc độ, nên rất hợp để xử lý batch
    • Tôi không muốn dùng mô hình thuê token mãi mãi
      Tôi muốn một model self-hosting hoàn toàn riêng tư
      Tôi đã quá mệt với chuyện dịch vụ SaaS bị ngừng, nên tôi nghĩ LLM cuối cùng cũng phải đi theo hướng tự host
    • Tôi đã xử lý batch hàng triệu tài liệu bằng vLLM + qwen3-coder-next
      Có thể tận dụng GPU 100% mà không bị giới hạn token hay giới hạn tốc độ
    • Không phải tác vụ nào cũng cần model SOTA
      Ví dụ tôi dùng Gemma 4 làm trình dịch offline trên iPhone,
      nhanh và chính xác hơn Apple Translate
      Với những việc nhỏ như chỉnh sửa JSON, model local hiệu quả hơn hẳn