Hướng dẫn chạy Qwen3.5 trên máy cục bộ

(unsloth.ai)

33 điểm bởi GN⁺ 2026-03-09 | 2 bình luận | Chia sẻ qua WhatsApp

Dòng mô hình Qwen3.5 của Alibaba cung cấp nhiều kích thước từ 0.8B đến 397B, hỗ trợ suy luận lai đa phương thức và ngữ cảnh 256K
Unsloth cung cấp toàn bộ mô hình Qwen3.5 dưới dạng lượng tử hóa Dynamic 2.0 GGUF, có thể chạy cục bộ qua llama.cpp hoặc LM Studio
Có thể chuyển đổi giữa chế độ thinking và non-thinking, trong đó các mô hình nhỏ (0.8B~9B) mặc định được đặt ở chế độ không suy luận
Dung lượng RAM/VRAM cần thiết và giá trị cấu hình khuyến nghị (temperature, top_p, v.v.) cho từng mô hình được nêu rõ; các mô hình 27B và 35B cũng có thể chạy trên môi trường Mac 22GB
GGUF của Unsloth cải thiện hiệu năng nhờ thuật toán lượng tử hóa nâng cao và dữ liệu imatrix, nhưng không tương thích với Ollama

Tổng quan về Qwen3.5

Qwen3.5 là dòng LLM mới do Alibaba công bố, bao gồm từ 0.8B·2B·4B·9B (nhỏ) đến 27B·35B·122B·397B (lớn)
- Hỗ trợ suy luận lai đa phương thức, đồng thời xử lý 201 ngôn ngữ và độ dài ngữ cảnh 256K
- Cho thấy hiệu năng cao trong agent coding, thị giác, hội thoại và tác vụ ngữ cảnh dài
Mô hình 35B và 27B có thể chạy ngay cả trên máy Mac với 22GB RAM
Tất cả tệp GGUF đều sử dụng thuật toán lượng tử hóa cải tiến và dữ liệu imatrix mới
- Cải thiện hiệu năng trong trò chuyện, lập trình, ngữ cảnh dài và gọi công cụ (tool-calling)
- Các lớp MXFP4 đã bị loại bỏ khỏi một số GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Yêu cầu phần cứng

Theo bảng, yêu cầu bộ nhớ tối thiểu được nêu theo từng kích thước mô hình
- Ví dụ: mô hình 0.8B~2B cần 3GB, 9B cần 5.5GB (chuẩn 3-bit), 35B-A3B cần 17GB
- 397B-A17B cần 180GB theo chuẩn 3-bit và 214GB theo chuẩn 4-bit
Tổng bộ nhớ (RAM+VRAM) cần lớn hơn kích thước tệp mô hình để đạt hiệu năng tối ưu
- Nếu không đủ, vẫn có thể chạy bằng offload sang SSD/HDD nhưng tốc độ sẽ giảm
27B phù hợp khi ưu tiên độ chính xác, còn 35B-A3B phù hợp khi ưu tiên tốc độ

Giá trị cấu hình khuyến nghị

Cửa sổ ngữ cảnh tối đa: 262,144 (có thể mở rộng lên 1M bằng YaRN)
presence_penalty: 0.0~2.0 (dùng để giảm lặp lại; càng cao thì hiệu năng có thể giảm nhẹ)
Độ dài đầu ra: khuyến nghị 32,768 token
Giá trị cấu hình thay đổi theo chế độ Thinking và chế độ Non-thinking
- Chế độ Thinking: tác vụ thông thường dùng temperature=1.0, lập trình dùng 0.6
- Chế độ Non-thinking: tác vụ thông thường dùng temperature=0.7, tác vụ suy luận dùng 1.0
Mô hình nhỏ (0.8B~9B) mặc định tắt reasoning
- Khi bật, sử dụng --chat-template-kwargs '{"enable_thinking":true}'

Hướng dẫn chạy và suy luận

Tất cả mô hình đều được cung cấp dưới phiên bản Dynamic 4-bit MXFP4_MOE GGUF
Quy trình suy luận cục bộ bằng llama.cpp
- Cài bản mới nhất từ GitHub, sau đó chọn GPU/CPU bằng tùy chọn -DGGML_CUDA
- Tải mô hình từ Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
- Chạy bằng lệnh llama-cli hoặc llama-server
Cũng có thể chạy trong LM Studio
- Tìm mô hình rồi tải GGUF, kích hoạt Thinking toggle bằng tệp YAML
- Sau khi khởi động lại, có thể dùng chức năng chuyển đổi

Tóm tắt cách chạy theo từng mô hình

Qwen3.5-35B-A3B: có thể suy luận nhanh với Dynamic 4-bit trên máy Mac/RAM 24GB
Qwen3.5-27B: có thể chạy với Mac/RAM 18GB
Qwen3.5-122B-A10B: hoạt động trong môi trường Mac/RAM 70GB
Qwen3.5-397B-A17B:
- 3-bit: cần 192GB RAM, 4-bit: cần 256GB RAM
- Với cấu hình GPU 24GB + RAM 256GB, có thể tạo hơn 25 token/giây
- Hiệu năng ở mức tương đương Gemini 3 Pro, Claude Opus 4.5 và GPT-5.2

Máy chủ suy luận và tích hợp API

Có thể triển khai dưới dạng API tương thích OpenAI thông qua llama-server
- Có thể gửi yêu cầu đến máy chủ cục bộ bằng thư viện Python openai
- Ví dụ dùng endpoint "http://127.0.0.1:8001/v1";
Hỗ trợ Tool Calling
- Có thể gọi hàm để chạy mã Python, lệnh terminal, phép toán, v.v.
- Có cung cấp mã ví dụ unsloth_inference()

Kết quả benchmark

Benchmark Unsloth GGUF
- Dynamic quant của Qwen3.5-35B đạt hiệu năng SOTA ở phần lớn các dải bit
- Hơn 150 lần kiểm thử KL Divergence, sử dụng tổng cộng 9TB dữ liệu GGUF
- Ở mức 99.9% KLD, đạt hiệu năng cao nhất trên Pareto Frontier
Qwen3.5-397B-A17B
- Trong bài kiểm thử bên thứ ba của Benjamin Marie
  - Bản gốc 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
  - Độ chính xác giảm dưới 1 điểm, tiết kiệm khoảng 500GB bộ nhớ
- Q3 được đề xuất cho tiết kiệm bộ nhớ, Q4 là lựa chọn ổn định hơn

Tính năng khác

Cung cấp lệnh bật/tắt Reasoning (--chat-template-kwargs)
Có thể tích hợp với Claude Code / OpenAI Codex
Có thể cấu hình gọi công cụ cho LLM cục bộ qua Tool Calling Guide
Không tương thích với Ollama, chỉ hỗ trợ backend dựa trên llama.cpp

2 bình luận

tensun 2026-03-09

Tôi đang dùng bản 27b trên hx370 và kết quả khá ổn.

GN⁺ 2026-03-09

Ý kiến trên Hacker News

Tôi đã thử chạy Qwen3.5 9B bằng LM Studio trên ASUS 5070ti 16G, hoạt động rất ổn định ở khoảng 100 tok/s
Nhanh hơn hầu hết các dịch vụ LLM online, và chất lượng đầu ra cũng phù hợp với mức benchmark
Đây là lần đầu tiên tôi chạy được một mô hình đủ dùng trong thực tế như vậy trên phần cứng tiêu dùng
- Tôi tò mò “tốt hơn dịch vụ online” là xét theo tốc độ, hay là so sánh chất lượng của chính mô hình?
  Tôi nghĩ chắc không phải là so sánh khả năng sử dụng với các model cao cấp như Sonnet hay Opus
- Tôi muốn biết độ dài context và hiệu năng trong cấu hình này ở mức nào
  Với công việc lập trình thì tôi cần ít nhất 100k context
- Không biết đã xử lý xong vấn đề Thinking mode chưa?
  Tôi bị vòng lặp vô hạn nên đã tắt đi, và thử đổi nhiều tham số vẫn không giải quyết được
- Qwen3.5 27B khi lượng tử hóa 4bit có thể vừa trong 16G VRAM
  Chất lượng ở mức Sonnet 4.0 vào mùa hè 2025, và tốc độ cũng rất tốt trên ik_llama.cpp
- Bạn có dùng kèm với Claude Code không?
  Phần orchestration có vẻ khá quan trọng
Có ghi là “All uploads use Unsloth Dynamic 2.0”, nhưng trong các tùy chọn thực tế lại có IQ4_XS, Q4_K_S, Q4_K_M và nhiều loại khác
Không có giải thích về trade-off của từng loại nên khá khó hiểu
Tôi chủ yếu dùng Qwen3-4B-Instruct-2507-Q4_K_M trên Mac mini M4 16GB, nhưng Qwen3.5-4B-UD-Q4_K_XL lại nói nhiều hơn hẳn
Mỗi người sẽ có nhu cầu khác nhau, nhưng sẽ rất hữu ích nếu có bảng tổng hợp cấu hình theo model/phần cứng và mức dùng bộ nhớ
Ngay cả trên Reddit cũng gần như không có ví dụ cấu hình cụ thể
Tôi đã theo dõi chủ đề này suốt 3 tháng gần đây, và thông tin rõ ràng thì ít hơn sự rối rắm
Hiện tại tôi đang dùng coder-model của qwen CLI trên cloud, đồng thời chờ một mô hình local tiêu thụ điện thấp xuất hiện
- Benchmark GGUF của Unsloth cho Qwen3.5 có thể hữu ích
  Trong đó có so sánh KL Divergence theo dung lượng đĩa giữa Q4_K_XL và Q4_K_M
  Q4_0 và Q4_1 tuy nhanh nhưng độ chính xác thấp hơn nên hiện nay không còn được khuyến nghị
  Q4_K_M và UD-Q4_K_XL gần như giống nhau, chỉ là _XL hơi lớn hơn một chút
- LocalScore.ai là một trang do Mozilla Builders tạo ra, nhắm tới việc ánh xạ kiểu model/phần cứng này
  Tuy nhiên hiện vẫn chưa có dữ liệu liên quan đến Qwen3.5
- Tôi đã thử chạy qwen3.5:4b bằng ollama trên Mac M1, gọi tool thì ổn nhưng tốc độ chậm và dễ lúng túng ở các tác vụ phức tạp
  Có thể nguyên nhân là do phải xử lý mã Rust
  Khi chạy qwen3.5-35b-a3b lượng tử hóa 6bit trên 4090 thì kết quả khá tốt
  Hiện tôi đang dùng 8bit qwen3.5-27b làm engine chính và khá hài lòng
- Hướng dẫn chọn mức lượng tử hóa model cũng đáng tham khảo
Mỗi khi có model mở mới ra mắt, tôi đều test tốc độ PP (xử lý prompt) và TG (tạo token) bằng llama-cpp/server
Tôi thử nghiệm trong môi trường Claude Code (context 15~30K) trên MacBook M1 Max 64GB
Qwen3.5-30B-A3B có tốc độ TG chỉ bằng khoảng một nửa so với Qwen3-30B-A3B
Qwen3.5 nhờ sliding window attention nên dùng ít RAM và chất lượng phản hồi tốt, nhưng ở context 33k thì chậm
Thiết lập chi tiết được tổng hợp trong tài liệu này
Trong benchmark cá nhân, tôi dùng Claude Opus để đánh giá với API DeepSeek làm mốc chuẩn
Qwen3.5 35B A3B(q8_0, thinking) đạt 92.5%, còn Q4_K_M(thinking) ở mức 90%
Tôi đã nghĩ model dense 27B sẽ cao hơn, nên kết quả này khá bất ngờ
Tuy nhiên, đây là đánh giá phản hồi one-shot, nên không phản ánh các tình huống lặp tác vụ kiểu agent
- Việc 35B A3B cao hơn 27B khá thú vị
  Có thể sự thiếu nhất quán logic trong prompt đã cản trở suy luận của 27B
  Nếu xem thinking trace thì có lẽ sẽ debug được nguyên nhân
- Tôi cũng tò mò liệu có model thinking nào gần như không làm tăng latency hay không
Tôi đã thử chạy Qwen3.5 9B trên CPU để làm OCR và dọn dẹp văn bản, và thấy khá dùng được
Tuy nhiên GPU offloading không hoạt động đúng, nên trên 1650 Ti với 4GB VRAM thì bị tràn bộ nhớ
- Tôi cũng gặp đúng vấn đề đó, nhưng đã giải quyết bằng cách cập nhật driver
  Có thể làm bằng lệnh sudo apt install nvidia-driver-570
- Trên cấu hình 1660ti + cachyos + llama.cpp-cuda thì chạy tốt
  Model 35B chạy với tốc độ tương đương model 4B nhưng mạnh hơn nhiều
  Tuy vậy qwen3.5 chỉ có tốc độ bằng một nửa qwen3
  Dù sao thì nhìn chung tôi vẫn hài lòng
- Nếu build từ source thì backend Vulkan là cách đơn giản nhất để GPU offloading hoạt động
Tôi đang chạy Qwen3.5:0.8b khá tốt chỉ bằng CPU trên Orangepi Zero 2w
Khi muốn dùng GPU Vulkan, tôi chạy qwen3.5:2b bằng zeroclaw trên Meta Quest 3
Nhờ vậy tôi tiết kiệm được vài trăm USD trong môi trường điện năng thấp
Tôi khuyến nghị thử chạy model local trên điện thoại Android cũ
Tôi muốn biết có nơi nào cung cấp 9B theo dạng hosted không
Trong môi trường doanh nghiệp khó thuê GPU, OpenRouter lại không có model nhỏ
Sẽ rất hay nếu có template serverless trên runpod
Tôi cũng muốn biết liệu model 9B có thể chạy độ trễ thấp ở 8bit hoặc 6bit trên 4090 hay không
Tôi đã thử chạy Qwen3.5 35B-A3B trên RTX 3050 8GB, và thấy phản hồi khá nhanh, xử lý tác vụ lập trình cũng tốt
Bản trước có vấn đề bị lặp khi dùng tool, nhưng có vẻ bản mới đã sửa rồi
- Tôi muốn biết có đang offload sang RAM hệ thống không
  Tôi cũng muốn biết chỉ số tok/s
  Có vẻ ngay cả trên laptop RTX 3060 cũng sẽ chạy ổn như một local server
- Tôi muốn biết bạn đã thử những ví dụ tác vụ lập trình nào
  Tôi không ngờ model local lại làm tốt đến vậy
- Bạn có thể cho biết cụ thể tên model đã dùng không?
Tôi tò mò model 397B-A17B so với Frontier thì thế nào
Có lẽ sẽ cần phần cứng đến mức hầu như đa số mọi người không thể chạy nổi
- Tôi đã dùng qua OpenRouter, rất tốt, nhưng ở một số tác vụ thì Frontier vẫn nhỉnh hơn
  Cá nhân tôi thấy model 122B đã đủ thỏa mãn về quyền riêng tư và tiết kiệm chi phí
Tôi muốn biết model này có chạy được trên máy chủ 4xV100 Tesla cũ hay không
Các thiết lập liên quan đến fp khá phức tạp nên với người mới thì rất khó hiểu

Hướng dẫn chạy Qwen3.5 trên máy cục bộ

Tổng quan về Qwen3.5

Yêu cầu phần cứng

Giá trị cấu hình khuyến nghị

Hướng dẫn chạy và suy luận

Tóm tắt cách chạy theo từng mô hình

Máy chủ suy luận và tích hợp API

Kết quả benchmark

Tính năng khác

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News