Mô hình mã nguồn mở Qwen3.5-Medium của Alibaba mang lại hiệu năng ngang Sonnet 4.5 khi chạy cục bộ

(venturebeat.com)

22 điểm bởi GN⁺ 2026-03-02 | 4 bình luận | Chia sẻ qua WhatsApp

Dòng Qwen3.5 gồm bốn mô hình ngôn ngữ lớn như 35B, 122B, 27B, trong đó ba mô hình được phát hành theo giấy phép mã nguồn mở Apache 2.0
Cho thấy hiệu năng benchmark vượt OpenAI GPT-5-mini và Anthropic Claude Sonnet 4.5, đồng thời có thể chạy hiệu năng cao ngay cả trong môi trường GPU cục bộ
Lượng tử hóa 4-bit (quantization) gần như giữ nguyên độ chính xác nhưng vẫn hỗ trợ cửa sổ ngữ cảnh hơn 1 triệu token, cho phép xử lý dữ liệu quy mô lớn ngay cả trên GPU desktop
Kết hợp kiến trúc Gated Delta Networks và Mixture-of-Experts (MoE) để tăng hiệu quả, đồng thời thông qua ‘Thinking Mode’ tạo câu trả lời sau khi trải qua quá trình suy luận nội bộ
Doanh nghiệp nhờ đó có thể xây dựng AI on-premise bảo vệ quyền riêng tư, đồng thời hiện thực hóa phát triển tác nhân tự trị mà không phụ thuộc vào đám mây chi phí cao

Tổng quan về mô hình Qwen3.5-Medium

Dòng Qwen3.5-Medium do đội ngũ Qwen AI của Alibaba công bố gồm bốn LLM hỗ trợ agentic tool calling
- Mô hình công khai: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Mô hình độc quyền: Qwen3.5-Flash (chỉ dành cho Alibaba Cloud Model Studio API)
Ba mô hình mã nguồn mở có thể tải về từ Hugging Face và ModelScope
Qwen3.5-Flash được cung cấp dưới dạng API thương mại và có chi phí vận hành thấp hơn so với các mô hình phương Tây

Hiệu năng và cấu trúc kỹ thuật

Các mô hình Qwen3.5 vượt OpenAI GPT-5-mini và Claude Sonnet 4.5 trong benchmark
Ngay cả sau lượng tử hóa (quantization) vẫn giữ độ chính xác cao và hỗ trợ cửa sổ ngữ cảnh hơn 1 triệu token trong môi trường GPU cục bộ (32GB VRAM)
Lượng tử hóa trọng số 4-bit và KV cache cho phép xử lý dữ liệu quy mô lớn mà không mất độ chính xác
Kiến trúc hybrid: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Trong tổng số 35 tỷ tham số, chỉ 300 triệu tham số được kích hoạt
- Các lớp MoE gồm 256 expert (8 expert định tuyến + 1 expert chia sẻ)
- Vẫn giữ độ chính xác ngay cả khi nén 4-bit, giúp tiết kiệm bộ nhớ khi triển khai cục bộ
Để hỗ trợ nghiên cứu, mô hình Qwen3.5-35B-A3B-Base cũng được phát hành cùng lúc

Cấu hình sản phẩm và tính năng

Thinking Mode: mô hình tạo quá trình suy luận nội bộ bằng thẻ `` trước khi trả lời
Đặc điểm theo từng mô hình
- Qwen3.5-27B: tập trung vào hiệu quả, hỗ trợ ngữ cảnh hơn 800.000 token
- Qwen3.5-Flash: ngữ cảnh mặc định 1 triệu token, tích hợp sẵn công cụ chính thức
- Qwen3.5-122B-A10B: dành cho GPU cấp máy chủ (80GB VRAM), hỗ trợ ngữ cảnh 1 triệu+
Kết quả benchmark: Qwen3.5-35B-A3B vượt Qwen3-235B, GPT-5-mini, Sonnet 4.5 ở các hạng mục tri thức (MMMLU) và suy luận thị giác (MMMU-Pro)

Giá và tích hợp API

Mức phí API của Qwen3.5-Flash
- Input: $0.1 / 1 triệu token
- Output: $0.4 / 1 triệu token
- Tạo cache: $0.125 / 1 triệu token
- Đọc cache: $0.01 / 1 triệu token
Biểu phí gọi công cụ: Web Search $10/1.000 lượt, Code Interpreter miễn phí (tạm thời)
Khi so với các LLM lớn, đây là một trong những API rẻ nhất
- Ví dụ: Claude Sonnet 4.5 có tổng chi phí $18/1 triệu token, GPT-5.2 là $15.75, còn Qwen3.5-Flash là $0.5

Ứng dụng doanh nghiệp và ý nghĩa

Việc công bố Qwen3.5-Medium giúp tinh chỉnh và triển khai mô hình ở cấp độ viện nghiên cứu lớn trở nên khả thi ngay cả với doanh nghiệp thông thường
Có thể thực hiện phân tích tài liệu và video dung lượng lớn trong môi trường on-premise, đồng thời tăng cường quyền riêng tư dữ liệu
Có thể chạy kiến trúc Mixture-of-Experts bên trong tường lửa nội bộ để duy trì chủ quyền dữ liệu
Có thể xây dựng AI agent tự trị bằng cách tận dụng Thinking Mode và Tool Calling
Những người dùng đầu tiên đánh giá rằng “khoảng cách với các mô hình lớn đóng đã được thu hẹp”
Nhờ thiết kế tập trung vào hiệu quả, có thể giảm chi phí, tăng cường bảo mật và nâng cao độ linh hoạt vận hành trong quá trình tích hợp AI

4 bình luận

chcv0313 2026-03-02

Tôi đang có RTX Pro 6000 (96GB, thực tế là 94GB), nhưng không chạy được model 122B bằng ollama. Có lẽ vì đây là model vision nên do phần có chứa vision transformer. Trong khi đó model GPT OSS 120b thì chạy lên khá dư dả.

ng0301 2026-03-02

Đúng vậy.. nếu dùng vision encoder thì ngay cả model 1B cũng ngốn tới 9G VRAM đấy.

kensin2 2026-03-02

Phải chạy bằng máy chủ llama.cpp dựa trên CUDA thì mới đạt hiệu năng.

GN⁺ 2026-03-02

Ý kiến trên Hacker News

Phần lớn các mô hình mã nguồn mở đang chơi trò tối ưu hóa benchmark
Mỗi khi có mô hình mới ra mắt, họ lại quảng bá là đạt đẳng cấp SOTA của vài tháng trước, nhưng khi dùng thực tế thì nhiều trường hợp khá thất vọng
Tôi đã thử Qwen3-Coder-Next và Qwen3.5, và chúng vẫn chưa đạt đến mức Sonnet 4.5
Tuy vậy, nếu nêu mục tiêu rõ ràng và áp ràng buộc bằng kiểm thử, chúng sẽ bền bỉ thử lại và cuối cùng vẫn giải được vấn đề
Dù sao, với tư cách là mô hình mã nguồn mở thì vẫn rất ấn tượng, và việc đạt được mức này trong môi trường self-hosted là điều đáng kinh ngạc
Nhưng không nên tin vào lời quảng bá quá mức rằng nó ở tầm Sonnet 4.5
- Theo trải nghiệm của tôi, một số mô hình mã nguồn mở thật sự mạnh và thực dụng
  Đặc biệt StepFun-3.5-flash hoạt động rất tốt ngay cả với codebase Rust phức tạp
  Tôi không có liên hệ gì với StepFun, nhưng tôi thực sự rất kính nể đội ngũ đã đạt được hiệu năng này với kiến trúc 196B/11B
- Các mô hình của “thế hệ trước” vẫn tốt hơn mã nguồn mở, nhưng những mô hình như GLM-5 dường như đã nắm bắt khá tốt năng lực khớp mẫu
  Benchmark của GertLabs, nơi cho các mô hình cạnh tranh với nhau, khá đáng tin vì khó bị thao túng
- Thực ra kiểu tối ưu benchmark này là điều mọi mô hình đều làm
  Thậm chí các mô hình đám mây có thể còn nghiêm trọng hơn vì họ có thể điều chỉnh cả runtime
- Tôi đang chạy Qwen 3.5 27B trên 4090, và đây là lần đầu tiên tôi thấy một mô hình local có hiệu năng code tốt đến vậy
  Trước đây gần như không dùng được, còn lần này thì thật sự bất ngờ
- Tôi từng thắc mắc có benchmark coding offline/private nào mới hơn không, và Apex Testing có vẻ khá ổn
  Nếu là bài kiểm tra khác với các bài toán chuẩn, có lẽ nó cũng chống overfitting tốt hơn
Tôi đang chạy thử các mô hình local trên MBP M3 Max 128G để so sánh hiệu năng
Opus 4.6 và Gemini Pro thì nhanh và chính xác, nhưng qwen3.5:35b-a3b chạy suốt 45 phút rồi vẫn đưa ra câu trả lời không chính xác
Tiếng quạt lớn đến mức như máy bay cất cánh
Tôi nghi ngờ liệu có thể dùng một mô hình chậm như vậy để xử lý codebase quy mô lớn hay không
- Thực ra việc chạy mô hình mở cỡ 100B tham số trên laptop vốn đã có giới hạn
  Các mô hình đám mây được vận hành bằng GPU trị giá hàng triệu đô với hơn 1T tham số
  Coding local ở mức thực tế hiện nay chỉ kiểu “tạo boilerplate cho ứng dụng Android”
- Opus và Gemini chạy trên các GPU hạng H200 trị giá hàng triệu đô
  Các mô hình local hiện vẫn chỉ ở mức hiệu năng của hai thế hệ trước, và nếu gọi là ngang Sonnet 4.5 thì vẫn còn cách khá xa Opus 4.6
- Ngành này đang sa vào một ngụy biện logic kiểu “mô hình lớn luôn tốt hơn”
  Thực ra, mô hình nhỏ được tối ưu cho bài toán hẹp có thể hoạt động tốt hơn
  Nhóm chúng tôi đang chạy một mô hình nhỏ chỉ tập trung vào coding trên M2 16GB, và tôi nghĩ nó tốt hơn Sonnet 4.5
  Chúng tôi sẽ sớm ra mắt beta của rig.ai
- MacBook có giới hạn nhiệt khá nặng, nên không phù hợp cho tác vụ kéo dài
  Ngay cả trên server, nếu cố định tốc độ quạt ở 100% thì hiệu năng GPU cũng tăng 30%
  Mô hình local phù hợp với tác vụ nhẹ, còn tác vụ nặng thì đưa lên cloud sẽ hiệu quả hơn
- qwen3.5-35b-a3b có xu hướng dành rất nhiều thời gian cho suy luận khi context ngắn
  Có báo cáo cho thấy nếu cung cấp system prompt dài hoặc nội dung tệp thì nó sẽ hiệu quả hơn nhiều
Tôi đã viết một hướng dẫn thiết lập llama.cpp, OpenCode và Qwen3-Coder-30B-A3B-Instruct (GGUF, lượng tử hóa Q4_K_M) trên M1 MacBook Pro
Cài đặt khá rắc rối, nhưng vẫn áp dụng được cho các mô hình mới hơn
Liên kết hướng dẫn cài đặt
- Nếu dùng LM Studio thì có thể cài đặt chỉ bằng một lần tìm kiếm và nhấp chuột, rồi được expose dưới dạng OpenAI-compatible API
- Tôi cũng đã làm cùng cấu hình đó trên desktop Ryzen 32GB, và Qwen là thứ gây ấn tượng nhất
  Nhờ kiến trúc MoE nên tốc độ suy luận cũng nhanh
  Tôi đã chọn lượng tử hóa Q4_K_M, nhưng không biết đó có phải lựa chọn tối ưu hay không
- Tôi đang chờ có mô hình local đủ dùng được ngay cả với 16GB RAM
- Tôi tò mò không biết tốc độ chạy trên M1 đạt đến mức nào
Tôi mới bắt đầu học về bên trong LLM và nhận ra float32 là mức độ chính xác quá dư dả
Qua blog tôi học về lượng tử hóa, rồi nhờ Claude phân tích độ chính xác của lượng tử hóa từ 1 đến 8 bit
4 bit có vẻ là sweet spot vì gần như không mất mát với độ tương đồng 99%, đồng thời chỉ bằng một nửa kích thước của 8 bit
Thấy các chuyên gia thực tế cũng dùng 4 bit nên khá thú vị
- Trên phần cứng NVIDIA mới nhất, hiện đã hỗ trợ cả huấn luyện 4 bit
  Mô hình GPT-OSS được huấn luyện theo định dạng MXFP4
  Tài liệu chuẩn hóa OCP, Đặc tả định dạng MX
- Nghiên cứu về mô hình ternary cũng rất thú vị
  Tính toán rất nhanh và hiệu quả bộ nhớ đệm cao, nên đáng để khám phá
- Tôi muốn tìm hiểu thêm về chủ đề này, không biết có tài liệu nào đáng tham khảo không
- Tôi chưa hình dung rõ mức chênh 1% về độ chính xác thực tế tạo ra hiệu ứng nhận thức như thế nào
  Hệ thống quá giống hộp đen nên rất khó nắm bắt bằng trực giác
Tôi đã chạy Qwen3.5 122B với LM Studio và Opencode, và thấy khá ấn tượng
Ngay cả trên môi trường M4 Max/128GB cũng không chậm, và cho thấy năng lực phân tích mã ở mức Claude Code
Thật đáng ngạc nhiên khi một lựa chọn thay thế hoàn toàn local lại tiến bộ đến vậy
Các mô hình mở đang ngày càng tốt hơn, nhưng vẫn chưa đạt mức Sonnet 4.5
Chúng rất tốt trong miền hẹp, nhưng yếu khi giải quyết các vấn đề mơ hồ
Qwen 3.5 là OSS tốt nhất tôi từng dùng cho đến nay, và đang dần bắt đầu thể hiện trí tuệ thực sự
Tôi chạy nó miễn phí trên RTX 6000 Pro, nhưng vẫn dùng Composer 1.5 thường xuyên hơn
Dù vậy, tôi kỳ vọng trong năm nay sẽ có mô hình local đạt cỡ GPT 5.2
Có quá nhiều tuyên bố phóng đại
Thực sự có rất ít người đã dùng thử, và thường thiếu tiêu chuẩn thực tế
Trước đây lúc nào cũng kèm điều kiện kiểu “không dùng nổi quá vài K token”
- Tôi đã tạo một ứng dụng web máy tính RPN bằng Qwen 3.5 122B/a10B (q3, unsloth dynamic quant), và đây là mô hình local đầu tiên làm ra thứ hoạt động hoàn chỉnh
  Các mô hình khác thì hoặc triển khai stack sai, hoặc UI rất tệ
  Claude Sonnet 4.6 cũng giải đúng bài này, nhưng ngoài nó ra thì gần như đều thất bại
- Qwen3-Coder-30B-A3B-Instruct phù hợp cho tích hợp IDE hoặc các tác vụ ở mức hàm nhỏ, nhưng có giới hạn khi triển khai tính năng quy mô lớn
- Tôi đã hoàn thành triển khai PCA dựa trên Polars bằng mô hình 35B chỉ trong 10 phút
  Trước đây các mô hình toàn hallucinate code pandas, nên đây là bước tiến lớn
Việc Claude vắng mặt trên bảng SWE khá dễ nhận ra
Nó tạo cảm giác như dữ liệu đã bị cố ý thao túng
Chỉ riêng thái độ như vậy cũng đủ làm người ta mất niềm tin
Tôi mong chờ ngày có thể tự chạy nó trên local
Tôi muốn giảm sự phụ thuộc vào các dịch vụ của Mỹ
Tôi tò mò không biết ở châu Âu có dịch vụ nào để thử các mô hình mở không
- Koyeb sau khi được Mistral mua lại thì đã cho thuê GPU theo phút, đồng thời cũng có thể triển khai mô hình chỉ bằng một cú nhấp chuột