- Dòng mô hình Qwen3.5 của Alibaba cung cấp nhiều kích thước từ 0.8B đến 397B, hỗ trợ suy luận lai đa phương thức và ngữ cảnh 256K
- Unsloth cung cấp toàn bộ mô hình Qwen3.5 dưới dạng lượng tử hóa Dynamic 2.0 GGUF, có thể chạy cục bộ qua llama.cpp hoặc LM Studio
- Có thể chuyển đổi giữa chế độ thinking và non-thinking, trong đó các mô hình nhỏ (0.8B~9B) mặc định được đặt ở chế độ không suy luận
- Dung lượng RAM/VRAM cần thiết và giá trị cấu hình khuyến nghị (temperature, top_p, v.v.) cho từng mô hình được nêu rõ; các mô hình 27B và 35B cũng có thể chạy trên môi trường Mac 22GB
- GGUF của Unsloth cải thiện hiệu năng nhờ thuật toán lượng tử hóa nâng cao và dữ liệu imatrix, nhưng không tương thích với Ollama
Tổng quan về Qwen3.5
- Qwen3.5 là dòng LLM mới do Alibaba công bố, bao gồm từ 0.8B·2B·4B·9B (nhỏ) đến 27B·35B·122B·397B (lớn)
- Hỗ trợ suy luận lai đa phương thức, đồng thời xử lý 201 ngôn ngữ và độ dài ngữ cảnh 256K
- Cho thấy hiệu năng cao trong agent coding, thị giác, hội thoại và tác vụ ngữ cảnh dài
- Mô hình 35B và 27B có thể chạy ngay cả trên máy Mac với 22GB RAM
- Tất cả tệp GGUF đều sử dụng thuật toán lượng tử hóa cải tiến và dữ liệu imatrix mới
- Cải thiện hiệu năng trong trò chuyện, lập trình, ngữ cảnh dài và gọi công cụ (tool-calling)
- Các lớp MXFP4 đã bị loại bỏ khỏi một số GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)
Yêu cầu phần cứng
- Theo bảng, yêu cầu bộ nhớ tối thiểu được nêu theo từng kích thước mô hình
- Ví dụ: mô hình 0.8B~2B cần 3GB, 9B cần 5.5GB (chuẩn 3-bit), 35B-A3B cần 17GB
- 397B-A17B cần 180GB theo chuẩn 3-bit và 214GB theo chuẩn 4-bit
- Tổng bộ nhớ (RAM+VRAM) cần lớn hơn kích thước tệp mô hình để đạt hiệu năng tối ưu
- Nếu không đủ, vẫn có thể chạy bằng offload sang SSD/HDD nhưng tốc độ sẽ giảm
- 27B phù hợp khi ưu tiên độ chính xác, còn 35B-A3B phù hợp khi ưu tiên tốc độ
Giá trị cấu hình khuyến nghị
- Cửa sổ ngữ cảnh tối đa: 262,144 (có thể mở rộng lên 1M bằng YaRN)
- presence_penalty: 0.0~2.0 (dùng để giảm lặp lại; càng cao thì hiệu năng có thể giảm nhẹ)
- Độ dài đầu ra: khuyến nghị 32,768 token
- Giá trị cấu hình thay đổi theo chế độ Thinking và chế độ Non-thinking
- Chế độ Thinking: tác vụ thông thường dùng temperature=1.0, lập trình dùng 0.6
- Chế độ Non-thinking: tác vụ thông thường dùng temperature=0.7, tác vụ suy luận dùng 1.0
- Mô hình nhỏ (0.8B~9B) mặc định tắt reasoning
- Khi bật, sử dụng
--chat-template-kwargs '{"enable_thinking":true}'
Hướng dẫn chạy và suy luận
- Tất cả mô hình đều được cung cấp dưới phiên bản Dynamic 4-bit MXFP4_MOE GGUF
- Quy trình suy luận cục bộ bằng llama.cpp
- Cài bản mới nhất từ GitHub, sau đó chọn GPU/CPU bằng tùy chọn
-DGGML_CUDA
- Tải mô hình từ Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- Chạy bằng lệnh
llama-cli hoặc llama-server
- Cũng có thể chạy trong LM Studio
- Tìm mô hình rồi tải GGUF, kích hoạt Thinking toggle bằng tệp YAML
- Sau khi khởi động lại, có thể dùng chức năng chuyển đổi
Tóm tắt cách chạy theo từng mô hình
- Qwen3.5-35B-A3B: có thể suy luận nhanh với Dynamic 4-bit trên máy Mac/RAM 24GB
- Qwen3.5-27B: có thể chạy với Mac/RAM 18GB
- Qwen3.5-122B-A10B: hoạt động trong môi trường Mac/RAM 70GB
- Qwen3.5-397B-A17B:
- 3-bit: cần 192GB RAM, 4-bit: cần 256GB RAM
- Với cấu hình GPU 24GB + RAM 256GB, có thể tạo hơn 25 token/giây
- Hiệu năng ở mức tương đương Gemini 3 Pro, Claude Opus 4.5 và GPT-5.2
Máy chủ suy luận và tích hợp API
- Có thể triển khai dưới dạng API tương thích OpenAI thông qua
llama-server
- Hỗ trợ Tool Calling
- Có thể gọi hàm để chạy mã Python, lệnh terminal, phép toán, v.v.
- Có cung cấp mã ví dụ
unsloth_inference()
Kết quả benchmark
- Benchmark Unsloth GGUF
- Dynamic quant của Qwen3.5-35B đạt hiệu năng SOTA ở phần lớn các dải bit
- Hơn 150 lần kiểm thử KL Divergence, sử dụng tổng cộng 9TB dữ liệu GGUF
- Ở mức 99.9% KLD, đạt hiệu năng cao nhất trên Pareto Frontier
- Qwen3.5-397B-A17B
- Trong bài kiểm thử bên thứ ba của Benjamin Marie
- Bản gốc 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- Độ chính xác giảm dưới 1 điểm, tiết kiệm khoảng 500GB bộ nhớ
- Q3 được đề xuất cho tiết kiệm bộ nhớ, Q4 là lựa chọn ổn định hơn
Tính năng khác
- Cung cấp lệnh bật/tắt Reasoning (
--chat-template-kwargs)
- Có thể tích hợp với Claude Code / OpenAI Codex
- Có thể cấu hình gọi công cụ cho LLM cục bộ qua Tool Calling Guide
- Không tương thích với Ollama, chỉ hỗ trợ backend dựa trên llama.cpp
2 bình luận
Tôi đang dùng bản 27b trên hx370 và kết quả khá ổn.
Ý kiến trên Hacker News
Tôi đã thử chạy Qwen3.5 9B bằng LM Studio trên ASUS 5070ti 16G, hoạt động rất ổn định ở khoảng 100 tok/s
Nhanh hơn hầu hết các dịch vụ LLM online, và chất lượng đầu ra cũng phù hợp với mức benchmark
Đây là lần đầu tiên tôi chạy được một mô hình đủ dùng trong thực tế như vậy trên phần cứng tiêu dùng
Tôi nghĩ chắc không phải là so sánh khả năng sử dụng với các model cao cấp như Sonnet hay Opus
Với công việc lập trình thì tôi cần ít nhất 100k context
Tôi bị vòng lặp vô hạn nên đã tắt đi, và thử đổi nhiều tham số vẫn không giải quyết được
Chất lượng ở mức Sonnet 4.0 vào mùa hè 2025, và tốc độ cũng rất tốt trên ik_llama.cpp
Phần orchestration có vẻ khá quan trọng
Có ghi là “All uploads use Unsloth Dynamic 2.0”, nhưng trong các tùy chọn thực tế lại có IQ4_XS, Q4_K_S, Q4_K_M và nhiều loại khác
Không có giải thích về trade-off của từng loại nên khá khó hiểu
Tôi chủ yếu dùng Qwen3-4B-Instruct-2507-Q4_K_M trên Mac mini M4 16GB, nhưng Qwen3.5-4B-UD-Q4_K_XL lại nói nhiều hơn hẳn
Mỗi người sẽ có nhu cầu khác nhau, nhưng sẽ rất hữu ích nếu có bảng tổng hợp cấu hình theo model/phần cứng và mức dùng bộ nhớ
Ngay cả trên Reddit cũng gần như không có ví dụ cấu hình cụ thể
Tôi đã theo dõi chủ đề này suốt 3 tháng gần đây, và thông tin rõ ràng thì ít hơn sự rối rắm
Hiện tại tôi đang dùng coder-model của qwen CLI trên cloud, đồng thời chờ một mô hình local tiêu thụ điện thấp xuất hiện
Trong đó có so sánh KL Divergence theo dung lượng đĩa giữa Q4_K_XL và Q4_K_M
Q4_0 và Q4_1 tuy nhanh nhưng độ chính xác thấp hơn nên hiện nay không còn được khuyến nghị
Q4_K_M và UD-Q4_K_XL gần như giống nhau, chỉ là _XL hơi lớn hơn một chút
Tuy nhiên hiện vẫn chưa có dữ liệu liên quan đến Qwen3.5
Có thể nguyên nhân là do phải xử lý mã Rust
Khi chạy qwen3.5-35b-a3b lượng tử hóa 6bit trên 4090 thì kết quả khá tốt
Hiện tôi đang dùng 8bit qwen3.5-27b làm engine chính và khá hài lòng
Mỗi khi có model mở mới ra mắt, tôi đều test tốc độ PP (xử lý prompt) và TG (tạo token) bằng llama-cpp/server
Tôi thử nghiệm trong môi trường Claude Code (context 15~30K) trên MacBook M1 Max 64GB
Qwen3.5-30B-A3B có tốc độ TG chỉ bằng khoảng một nửa so với Qwen3-30B-A3B
Qwen3.5 nhờ sliding window attention nên dùng ít RAM và chất lượng phản hồi tốt, nhưng ở context 33k thì chậm
Thiết lập chi tiết được tổng hợp trong tài liệu này
Trong benchmark cá nhân, tôi dùng Claude Opus để đánh giá với API DeepSeek làm mốc chuẩn
Qwen3.5 35B A3B(q8_0, thinking) đạt 92.5%, còn Q4_K_M(thinking) ở mức 90%
Tôi đã nghĩ model dense 27B sẽ cao hơn, nên kết quả này khá bất ngờ
Tuy nhiên, đây là đánh giá phản hồi one-shot, nên không phản ánh các tình huống lặp tác vụ kiểu agent
Có thể sự thiếu nhất quán logic trong prompt đã cản trở suy luận của 27B
Nếu xem thinking trace thì có lẽ sẽ debug được nguyên nhân
Tôi đã thử chạy Qwen3.5 9B trên CPU để làm OCR và dọn dẹp văn bản, và thấy khá dùng được
Tuy nhiên GPU offloading không hoạt động đúng, nên trên 1650 Ti với 4GB VRAM thì bị tràn bộ nhớ
Có thể làm bằng lệnh
sudo apt install nvidia-driver-570Model 35B chạy với tốc độ tương đương model 4B nhưng mạnh hơn nhiều
Tuy vậy qwen3.5 chỉ có tốc độ bằng một nửa qwen3
Dù sao thì nhìn chung tôi vẫn hài lòng
Tôi đang chạy Qwen3.5:0.8b khá tốt chỉ bằng CPU trên Orangepi Zero 2w
Khi muốn dùng GPU Vulkan, tôi chạy qwen3.5:2b bằng zeroclaw trên Meta Quest 3
Nhờ vậy tôi tiết kiệm được vài trăm USD trong môi trường điện năng thấp
Tôi khuyến nghị thử chạy model local trên điện thoại Android cũ
Tôi muốn biết có nơi nào cung cấp 9B theo dạng hosted không
Trong môi trường doanh nghiệp khó thuê GPU, OpenRouter lại không có model nhỏ
Sẽ rất hay nếu có template serverless trên runpod
Tôi cũng muốn biết liệu model 9B có thể chạy độ trễ thấp ở 8bit hoặc 6bit trên 4090 hay không
Tôi đã thử chạy Qwen3.5 35B-A3B trên RTX 3050 8GB, và thấy phản hồi khá nhanh, xử lý tác vụ lập trình cũng tốt
Bản trước có vấn đề bị lặp khi dùng tool, nhưng có vẻ bản mới đã sửa rồi
Tôi cũng muốn biết chỉ số tok/s
Có vẻ ngay cả trên laptop RTX 3060 cũng sẽ chạy ổn như một local server
Tôi không ngờ model local lại làm tốt đến vậy
Tôi tò mò model 397B-A17B so với Frontier thì thế nào
Có lẽ sẽ cần phần cứng đến mức hầu như đa số mọi người không thể chạy nổi
Cá nhân tôi thấy model 122B đã đủ thỏa mãn về quyền riêng tư và tiết kiệm chi phí
Tôi muốn biết model này có chạy được trên máy chủ 4xV100 Tesla cũ hay không
Các thiết lập liên quan đến fp khá phức tạp nên với người mới thì rất khó hiểu