- Dòng Qwen3.5 gồm bốn mô hình ngôn ngữ lớn như 35B, 122B, 27B, trong đó ba mô hình được phát hành theo giấy phép mã nguồn mở Apache 2.0
- Cho thấy hiệu năng benchmark vượt OpenAI GPT-5-mini và Anthropic Claude Sonnet 4.5, đồng thời có thể chạy hiệu năng cao ngay cả trong môi trường GPU cục bộ
- Lượng tử hóa 4-bit (quantization) gần như giữ nguyên độ chính xác nhưng vẫn hỗ trợ cửa sổ ngữ cảnh hơn 1 triệu token, cho phép xử lý dữ liệu quy mô lớn ngay cả trên GPU desktop
- Kết hợp kiến trúc Gated Delta Networks và Mixture-of-Experts (MoE) để tăng hiệu quả, đồng thời thông qua ‘Thinking Mode’ tạo câu trả lời sau khi trải qua quá trình suy luận nội bộ
- Doanh nghiệp nhờ đó có thể xây dựng AI on-premise bảo vệ quyền riêng tư, đồng thời hiện thực hóa phát triển tác nhân tự trị mà không phụ thuộc vào đám mây chi phí cao
Tổng quan về mô hình Qwen3.5-Medium
- Dòng Qwen3.5-Medium do đội ngũ Qwen AI của Alibaba công bố gồm bốn LLM hỗ trợ agentic tool calling
- Mô hình công khai: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- Mô hình độc quyền: Qwen3.5-Flash (chỉ dành cho Alibaba Cloud Model Studio API)
- Ba mô hình mã nguồn mở có thể tải về từ Hugging Face và ModelScope
- Qwen3.5-Flash được cung cấp dưới dạng API thương mại và có chi phí vận hành thấp hơn so với các mô hình phương Tây
Hiệu năng và cấu trúc kỹ thuật
- Các mô hình Qwen3.5 vượt OpenAI GPT-5-mini và Claude Sonnet 4.5 trong benchmark
- Ngay cả sau lượng tử hóa (quantization) vẫn giữ độ chính xác cao và hỗ trợ cửa sổ ngữ cảnh hơn 1 triệu token trong môi trường GPU cục bộ (32GB VRAM)
- Lượng tử hóa trọng số 4-bit và KV cache cho phép xử lý dữ liệu quy mô lớn mà không mất độ chính xác
- Kiến trúc hybrid: Gated Delta Networks + Sparse Mixture-of-Experts (MoE)
- Trong tổng số 35 tỷ tham số, chỉ 300 triệu tham số được kích hoạt
- Các lớp MoE gồm 256 expert (8 expert định tuyến + 1 expert chia sẻ)
- Vẫn giữ độ chính xác ngay cả khi nén 4-bit, giúp tiết kiệm bộ nhớ khi triển khai cục bộ
- Để hỗ trợ nghiên cứu, mô hình Qwen3.5-35B-A3B-Base cũng được phát hành cùng lúc
Cấu hình sản phẩm và tính năng
- Thinking Mode: mô hình tạo quá trình suy luận nội bộ bằng thẻ `` trước khi trả lời
- Đặc điểm theo từng mô hình
- Qwen3.5-27B: tập trung vào hiệu quả, hỗ trợ ngữ cảnh hơn 800.000 token
- Qwen3.5-Flash: ngữ cảnh mặc định 1 triệu token, tích hợp sẵn công cụ chính thức
- Qwen3.5-122B-A10B: dành cho GPU cấp máy chủ (80GB VRAM), hỗ trợ ngữ cảnh 1 triệu+
- Kết quả benchmark: Qwen3.5-35B-A3B vượt Qwen3-235B, GPT-5-mini, Sonnet 4.5 ở các hạng mục tri thức (MMMLU) và suy luận thị giác (MMMU-Pro)
Giá và tích hợp API
- Mức phí API của Qwen3.5-Flash
- Input: $0.1 / 1 triệu token
- Output: $0.4 / 1 triệu token
- Tạo cache: $0.125 / 1 triệu token
- Đọc cache: $0.01 / 1 triệu token
- Biểu phí gọi công cụ: Web Search $10/1.000 lượt, Code Interpreter miễn phí (tạm thời)
- Khi so với các LLM lớn, đây là một trong những API rẻ nhất
- Ví dụ: Claude Sonnet 4.5 có tổng chi phí $18/1 triệu token, GPT-5.2 là $15.75, còn Qwen3.5-Flash là $0.5
Ứng dụng doanh nghiệp và ý nghĩa
- Việc công bố Qwen3.5-Medium giúp tinh chỉnh và triển khai mô hình ở cấp độ viện nghiên cứu lớn trở nên khả thi ngay cả với doanh nghiệp thông thường
- Có thể thực hiện phân tích tài liệu và video dung lượng lớn trong môi trường on-premise, đồng thời tăng cường quyền riêng tư dữ liệu
- Có thể chạy kiến trúc Mixture-of-Experts bên trong tường lửa nội bộ để duy trì chủ quyền dữ liệu
- Có thể xây dựng AI agent tự trị bằng cách tận dụng Thinking Mode và Tool Calling
- Những người dùng đầu tiên đánh giá rằng “khoảng cách với các mô hình lớn đóng đã được thu hẹp”
- Nhờ thiết kế tập trung vào hiệu quả, có thể giảm chi phí, tăng cường bảo mật và nâng cao độ linh hoạt vận hành trong quá trình tích hợp AI
4 bình luận
Tôi đang có RTX Pro 6000 (96GB, thực tế là 94GB), nhưng không chạy được model 122B bằng ollama. Có lẽ vì đây là model vision nên do phần có chứa vision transformer. Trong khi đó model GPT OSS 120b thì chạy lên khá dư dả.
Đúng vậy.. nếu dùng vision encoder thì ngay cả model 1B cũng ngốn tới 9G VRAM đấy.
Phải chạy bằng máy chủ
llama.cppdựa trên CUDA thì mới đạt hiệu năng.Ý kiến trên Hacker News
Phần lớn các mô hình mã nguồn mở đang chơi trò tối ưu hóa benchmark
Mỗi khi có mô hình mới ra mắt, họ lại quảng bá là đạt đẳng cấp SOTA của vài tháng trước, nhưng khi dùng thực tế thì nhiều trường hợp khá thất vọng
Tôi đã thử Qwen3-Coder-Next và Qwen3.5, và chúng vẫn chưa đạt đến mức Sonnet 4.5
Tuy vậy, nếu nêu mục tiêu rõ ràng và áp ràng buộc bằng kiểm thử, chúng sẽ bền bỉ thử lại và cuối cùng vẫn giải được vấn đề
Dù sao, với tư cách là mô hình mã nguồn mở thì vẫn rất ấn tượng, và việc đạt được mức này trong môi trường self-hosted là điều đáng kinh ngạc
Nhưng không nên tin vào lời quảng bá quá mức rằng nó ở tầm Sonnet 4.5
Đặc biệt StepFun-3.5-flash hoạt động rất tốt ngay cả với codebase Rust phức tạp
Tôi không có liên hệ gì với StepFun, nhưng tôi thực sự rất kính nể đội ngũ đã đạt được hiệu năng này với kiến trúc 196B/11B
Benchmark của GertLabs, nơi cho các mô hình cạnh tranh với nhau, khá đáng tin vì khó bị thao túng
Thậm chí các mô hình đám mây có thể còn nghiêm trọng hơn vì họ có thể điều chỉnh cả runtime
Trước đây gần như không dùng được, còn lần này thì thật sự bất ngờ
Nếu là bài kiểm tra khác với các bài toán chuẩn, có lẽ nó cũng chống overfitting tốt hơn
Tôi đang chạy thử các mô hình local trên MBP M3 Max 128G để so sánh hiệu năng
Opus 4.6 và Gemini Pro thì nhanh và chính xác, nhưng qwen3.5:35b-a3b chạy suốt 45 phút rồi vẫn đưa ra câu trả lời không chính xác
Tiếng quạt lớn đến mức như máy bay cất cánh
Tôi nghi ngờ liệu có thể dùng một mô hình chậm như vậy để xử lý codebase quy mô lớn hay không
Các mô hình đám mây được vận hành bằng GPU trị giá hàng triệu đô với hơn 1T tham số
Coding local ở mức thực tế hiện nay chỉ kiểu “tạo boilerplate cho ứng dụng Android”
Các mô hình local hiện vẫn chỉ ở mức hiệu năng của hai thế hệ trước, và nếu gọi là ngang Sonnet 4.5 thì vẫn còn cách khá xa Opus 4.6
Thực ra, mô hình nhỏ được tối ưu cho bài toán hẹp có thể hoạt động tốt hơn
Nhóm chúng tôi đang chạy một mô hình nhỏ chỉ tập trung vào coding trên M2 16GB, và tôi nghĩ nó tốt hơn Sonnet 4.5
Chúng tôi sẽ sớm ra mắt beta của rig.ai
Ngay cả trên server, nếu cố định tốc độ quạt ở 100% thì hiệu năng GPU cũng tăng 30%
Mô hình local phù hợp với tác vụ nhẹ, còn tác vụ nặng thì đưa lên cloud sẽ hiệu quả hơn
Có báo cáo cho thấy nếu cung cấp system prompt dài hoặc nội dung tệp thì nó sẽ hiệu quả hơn nhiều
Tôi đã viết một hướng dẫn thiết lập llama.cpp, OpenCode và Qwen3-Coder-30B-A3B-Instruct (GGUF, lượng tử hóa Q4_K_M) trên M1 MacBook Pro
Cài đặt khá rắc rối, nhưng vẫn áp dụng được cho các mô hình mới hơn
Liên kết hướng dẫn cài đặt
Nhờ kiến trúc MoE nên tốc độ suy luận cũng nhanh
Tôi đã chọn lượng tử hóa Q4_K_M, nhưng không biết đó có phải lựa chọn tối ưu hay không
Tôi mới bắt đầu học về bên trong LLM và nhận ra float32 là mức độ chính xác quá dư dả
Qua blog tôi học về lượng tử hóa, rồi nhờ Claude phân tích độ chính xác của lượng tử hóa từ 1 đến 8 bit
4 bit có vẻ là sweet spot vì gần như không mất mát với độ tương đồng 99%, đồng thời chỉ bằng một nửa kích thước của 8 bit
Thấy các chuyên gia thực tế cũng dùng 4 bit nên khá thú vị
Mô hình GPT-OSS được huấn luyện theo định dạng MXFP4
Tài liệu chuẩn hóa OCP, Đặc tả định dạng MX
Tính toán rất nhanh và hiệu quả bộ nhớ đệm cao, nên đáng để khám phá
Hệ thống quá giống hộp đen nên rất khó nắm bắt bằng trực giác
Tôi đã chạy Qwen3.5 122B với LM Studio và Opencode, và thấy khá ấn tượng
Ngay cả trên môi trường M4 Max/128GB cũng không chậm, và cho thấy năng lực phân tích mã ở mức Claude Code
Thật đáng ngạc nhiên khi một lựa chọn thay thế hoàn toàn local lại tiến bộ đến vậy
Các mô hình mở đang ngày càng tốt hơn, nhưng vẫn chưa đạt mức Sonnet 4.5
Chúng rất tốt trong miền hẹp, nhưng yếu khi giải quyết các vấn đề mơ hồ
Qwen 3.5 là OSS tốt nhất tôi từng dùng cho đến nay, và đang dần bắt đầu thể hiện trí tuệ thực sự
Tôi chạy nó miễn phí trên RTX 6000 Pro, nhưng vẫn dùng Composer 1.5 thường xuyên hơn
Dù vậy, tôi kỳ vọng trong năm nay sẽ có mô hình local đạt cỡ GPT 5.2
Có quá nhiều tuyên bố phóng đại
Thực sự có rất ít người đã dùng thử, và thường thiếu tiêu chuẩn thực tế
Trước đây lúc nào cũng kèm điều kiện kiểu “không dùng nổi quá vài K token”
Các mô hình khác thì hoặc triển khai stack sai, hoặc UI rất tệ
Claude Sonnet 4.6 cũng giải đúng bài này, nhưng ngoài nó ra thì gần như đều thất bại
Trước đây các mô hình toàn hallucinate code pandas, nên đây là bước tiến lớn
Việc Claude vắng mặt trên bảng SWE khá dễ nhận ra
Nó tạo cảm giác như dữ liệu đã bị cố ý thao túng
Chỉ riêng thái độ như vậy cũng đủ làm người ta mất niềm tin
Tôi mong chờ ngày có thể tự chạy nó trên local
Tôi muốn giảm sự phụ thuộc vào các dịch vụ của Mỹ
Tôi tò mò không biết ở châu Âu có dịch vụ nào để thử các mô hình mở không