33 điểm bởi GN⁺ 2026-03-09 | 2 bình luận | Chia sẻ qua WhatsApp
  • Dòng mô hình Qwen3.5 của Alibaba cung cấp nhiều kích thước từ 0.8B đến 397B, hỗ trợ suy luận lai đa phương thứcngữ cảnh 256K
  • Unsloth cung cấp toàn bộ mô hình Qwen3.5 dưới dạng lượng tử hóa Dynamic 2.0 GGUF, có thể chạy cục bộ qua llama.cpp hoặc LM Studio
  • Có thể chuyển đổi giữa chế độ thinkingnon-thinking, trong đó các mô hình nhỏ (0.8B~9B) mặc định được đặt ở chế độ không suy luận
  • Dung lượng RAM/VRAM cần thiếtgiá trị cấu hình khuyến nghị (temperature, top_p, v.v.) cho từng mô hình được nêu rõ; các mô hình 27B và 35B cũng có thể chạy trên môi trường Mac 22GB
  • GGUF của Unsloth cải thiện hiệu năng nhờ thuật toán lượng tử hóa nâng caodữ liệu imatrix, nhưng không tương thích với Ollama

Tổng quan về Qwen3.5

  • Qwen3.5 là dòng LLM mới do Alibaba công bố, bao gồm từ 0.8B·2B·4B·9B (nhỏ) đến 27B·35B·122B·397B (lớn)
    • Hỗ trợ suy luận lai đa phương thức, đồng thời xử lý 201 ngôn ngữđộ dài ngữ cảnh 256K
    • Cho thấy hiệu năng cao trong agent coding, thị giác, hội thoại và tác vụ ngữ cảnh dài
  • Mô hình 35B và 27B có thể chạy ngay cả trên máy Mac với 22GB RAM
  • Tất cả tệp GGUF đều sử dụng thuật toán lượng tử hóa cải tiếndữ liệu imatrix mới
    • Cải thiện hiệu năng trong trò chuyện, lập trình, ngữ cảnh dài và gọi công cụ (tool-calling)
    • Các lớp MXFP4 đã bị loại bỏ khỏi một số GGUF (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Yêu cầu phần cứng

  • Theo bảng, yêu cầu bộ nhớ tối thiểu được nêu theo từng kích thước mô hình
    • Ví dụ: mô hình 0.8B~2B cần 3GB, 9B cần 5.5GB (chuẩn 3-bit), 35B-A3B cần 17GB
    • 397B-A17B cần 180GB theo chuẩn 3-bit và 214GB theo chuẩn 4-bit
  • Tổng bộ nhớ (RAM+VRAM) cần lớn hơn kích thước tệp mô hình để đạt hiệu năng tối ưu
    • Nếu không đủ, vẫn có thể chạy bằng offload sang SSD/HDD nhưng tốc độ sẽ giảm
  • 27B phù hợp khi ưu tiên độ chính xác, còn 35B-A3B phù hợp khi ưu tiên tốc độ

Giá trị cấu hình khuyến nghị

  • Cửa sổ ngữ cảnh tối đa: 262,144 (có thể mở rộng lên 1M bằng YaRN)
  • presence_penalty: 0.0~2.0 (dùng để giảm lặp lại; càng cao thì hiệu năng có thể giảm nhẹ)
  • Độ dài đầu ra: khuyến nghị 32,768 token
  • Giá trị cấu hình thay đổi theo chế độ Thinkingchế độ Non-thinking
    • Chế độ Thinking: tác vụ thông thường dùng temperature=1.0, lập trình dùng 0.6
    • Chế độ Non-thinking: tác vụ thông thường dùng temperature=0.7, tác vụ suy luận dùng 1.0
  • Mô hình nhỏ (0.8B~9B) mặc định tắt reasoning
    • Khi bật, sử dụng --chat-template-kwargs '{"enable_thinking":true}'

Hướng dẫn chạy và suy luận

  • Tất cả mô hình đều được cung cấp dưới phiên bản Dynamic 4-bit MXFP4_MOE GGUF
  • Quy trình suy luận cục bộ bằng llama.cpp
    • Cài bản mới nhất từ GitHub, sau đó chọn GPU/CPU bằng tùy chọn -DGGML_CUDA
    • Tải mô hình từ Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
    • Chạy bằng lệnh llama-cli hoặc llama-server
  • Cũng có thể chạy trong LM Studio
    • Tìm mô hình rồi tải GGUF, kích hoạt Thinking toggle bằng tệp YAML
    • Sau khi khởi động lại, có thể dùng chức năng chuyển đổi

Tóm tắt cách chạy theo từng mô hình

  • Qwen3.5-35B-A3B: có thể suy luận nhanh với Dynamic 4-bit trên máy Mac/RAM 24GB
  • Qwen3.5-27B: có thể chạy với Mac/RAM 18GB
  • Qwen3.5-122B-A10B: hoạt động trong môi trường Mac/RAM 70GB
  • Qwen3.5-397B-A17B:
    • 3-bit: cần 192GB RAM, 4-bit: cần 256GB RAM
    • Với cấu hình GPU 24GB + RAM 256GB, có thể tạo hơn 25 token/giây
    • Hiệu năng ở mức tương đương Gemini 3 Pro, Claude Opus 4.5 và GPT-5.2

Máy chủ suy luận và tích hợp API

  • Có thể triển khai dưới dạng API tương thích OpenAI thông qua llama-server
    • Có thể gửi yêu cầu đến máy chủ cục bộ bằng thư viện Python openai
    • Ví dụ dùng endpoint "http://127.0.0.1:8001/v1";
  • Hỗ trợ Tool Calling
    • Có thể gọi hàm để chạy mã Python, lệnh terminal, phép toán, v.v.
    • Có cung cấp mã ví dụ unsloth_inference()

Kết quả benchmark

  • Benchmark Unsloth GGUF
    • Dynamic quant của Qwen3.5-35B đạt hiệu năng SOTA ở phần lớn các dải bit
    • Hơn 150 lần kiểm thử KL Divergence, sử dụng tổng cộng 9TB dữ liệu GGUF
    • Ở mức 99.9% KLD, đạt hiệu năng cao nhất trên Pareto Frontier
  • Qwen3.5-397B-A17B
    • Trong bài kiểm thử bên thứ ba của Benjamin Marie
      • Bản gốc 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • Độ chính xác giảm dưới 1 điểm, tiết kiệm khoảng 500GB bộ nhớ
    • Q3 được đề xuất cho tiết kiệm bộ nhớ, Q4 là lựa chọn ổn định hơn

Tính năng khác

  • Cung cấp lệnh bật/tắt Reasoning (--chat-template-kwargs)
  • Có thể tích hợp với Claude Code / OpenAI Codex
  • Có thể cấu hình gọi công cụ cho LLM cục bộ qua Tool Calling Guide
  • Không tương thích với Ollama, chỉ hỗ trợ backend dựa trên llama.cpp

2 bình luận

 
tensun 2026-03-09

Tôi đang dùng bản 27b trên hx370 và kết quả khá ổn.

 
GN⁺ 2026-03-09
Ý kiến trên Hacker News
  • Tôi đã thử chạy Qwen3.5 9B bằng LM Studio trên ASUS 5070ti 16G, hoạt động rất ổn định ở khoảng 100 tok/s
    Nhanh hơn hầu hết các dịch vụ LLM online, và chất lượng đầu ra cũng phù hợp với mức benchmark
    Đây là lần đầu tiên tôi chạy được một mô hình đủ dùng trong thực tế như vậy trên phần cứng tiêu dùng

    • Tôi tò mò “tốt hơn dịch vụ online” là xét theo tốc độ, hay là so sánh chất lượng của chính mô hình?
      Tôi nghĩ chắc không phải là so sánh khả năng sử dụng với các model cao cấp như Sonnet hay Opus
    • Tôi muốn biết độ dài context và hiệu năng trong cấu hình này ở mức nào
      Với công việc lập trình thì tôi cần ít nhất 100k context
    • Không biết đã xử lý xong vấn đề Thinking mode chưa?
      Tôi bị vòng lặp vô hạn nên đã tắt đi, và thử đổi nhiều tham số vẫn không giải quyết được
    • Qwen3.5 27B khi lượng tử hóa 4bit có thể vừa trong 16G VRAM
      Chất lượng ở mức Sonnet 4.0 vào mùa hè 2025, và tốc độ cũng rất tốt trên ik_llama.cpp
    • Bạn có dùng kèm với Claude Code không?
      Phần orchestration có vẻ khá quan trọng
  • Có ghi là “All uploads use Unsloth Dynamic 2.0”, nhưng trong các tùy chọn thực tế lại có IQ4_XS, Q4_K_S, Q4_K_M và nhiều loại khác
    Không có giải thích về trade-off của từng loại nên khá khó hiểu
    Tôi chủ yếu dùng Qwen3-4B-Instruct-2507-Q4_K_M trên Mac mini M4 16GB, nhưng Qwen3.5-4B-UD-Q4_K_XL lại nói nhiều hơn hẳn
    Mỗi người sẽ có nhu cầu khác nhau, nhưng sẽ rất hữu ích nếu có bảng tổng hợp cấu hình theo model/phần cứng và mức dùng bộ nhớ
    Ngay cả trên Reddit cũng gần như không có ví dụ cấu hình cụ thể
    Tôi đã theo dõi chủ đề này suốt 3 tháng gần đây, và thông tin rõ ràng thì ít hơn sự rối rắm
    Hiện tại tôi đang dùng coder-model của qwen CLI trên cloud, đồng thời chờ một mô hình local tiêu thụ điện thấp xuất hiện

    • Benchmark GGUF của Unsloth cho Qwen3.5 có thể hữu ích
      Trong đó có so sánh KL Divergence theo dung lượng đĩa giữa Q4_K_XL và Q4_K_M
      Q4_0 và Q4_1 tuy nhanh nhưng độ chính xác thấp hơn nên hiện nay không còn được khuyến nghị
      Q4_K_M và UD-Q4_K_XL gần như giống nhau, chỉ là _XL hơi lớn hơn một chút
    • LocalScore.ai là một trang do Mozilla Builders tạo ra, nhắm tới việc ánh xạ kiểu model/phần cứng này
      Tuy nhiên hiện vẫn chưa có dữ liệu liên quan đến Qwen3.5
    • Tôi đã thử chạy qwen3.5:4b bằng ollama trên Mac M1, gọi tool thì ổn nhưng tốc độ chậm và dễ lúng túng ở các tác vụ phức tạp
      Có thể nguyên nhân là do phải xử lý mã Rust
      Khi chạy qwen3.5-35b-a3b lượng tử hóa 6bit trên 4090 thì kết quả khá tốt
      Hiện tôi đang dùng 8bit qwen3.5-27b làm engine chính và khá hài lòng
    • Hướng dẫn chọn mức lượng tử hóa model cũng đáng tham khảo
  • Mỗi khi có model mở mới ra mắt, tôi đều test tốc độ PP (xử lý prompt)TG (tạo token) bằng llama-cpp/server
    Tôi thử nghiệm trong môi trường Claude Code (context 15~30K) trên MacBook M1 Max 64GB
    Qwen3.5-30B-A3B có tốc độ TG chỉ bằng khoảng một nửa so với Qwen3-30B-A3B
    Qwen3.5 nhờ sliding window attention nên dùng ít RAM và chất lượng phản hồi tốt, nhưng ở context 33k thì chậm
    Thiết lập chi tiết được tổng hợp trong tài liệu này

  • Trong benchmark cá nhân, tôi dùng Claude Opus để đánh giá với API DeepSeek làm mốc chuẩn
    Qwen3.5 35B A3B(q8_0, thinking) đạt 92.5%, còn Q4_K_M(thinking) ở mức 90%
    Tôi đã nghĩ model dense 27B sẽ cao hơn, nên kết quả này khá bất ngờ
    Tuy nhiên, đây là đánh giá phản hồi one-shot, nên không phản ánh các tình huống lặp tác vụ kiểu agent

    • Việc 35B A3B cao hơn 27B khá thú vị
      Có thể sự thiếu nhất quán logic trong prompt đã cản trở suy luận của 27B
      Nếu xem thinking trace thì có lẽ sẽ debug được nguyên nhân
    • Tôi cũng tò mò liệu có model thinking nào gần như không làm tăng latency hay không
  • Tôi đã thử chạy Qwen3.5 9B trên CPU để làm OCR và dọn dẹp văn bản, và thấy khá dùng được
    Tuy nhiên GPU offloading không hoạt động đúng, nên trên 1650 Ti với 4GB VRAM thì bị tràn bộ nhớ

    • Tôi cũng gặp đúng vấn đề đó, nhưng đã giải quyết bằng cách cập nhật driver
      Có thể làm bằng lệnh sudo apt install nvidia-driver-570
    • Trên cấu hình 1660ti + cachyos + llama.cpp-cuda thì chạy tốt
      Model 35B chạy với tốc độ tương đương model 4B nhưng mạnh hơn nhiều
      Tuy vậy qwen3.5 chỉ có tốc độ bằng một nửa qwen3
      Dù sao thì nhìn chung tôi vẫn hài lòng
    • Nếu build từ source thì backend Vulkan là cách đơn giản nhất để GPU offloading hoạt động
  • Tôi đang chạy Qwen3.5:0.8b khá tốt chỉ bằng CPU trên Orangepi Zero 2w
    Khi muốn dùng GPU Vulkan, tôi chạy qwen3.5:2b bằng zeroclaw trên Meta Quest 3
    Nhờ vậy tôi tiết kiệm được vài trăm USD trong môi trường điện năng thấp
    Tôi khuyến nghị thử chạy model local trên điện thoại Android cũ

  • Tôi muốn biết có nơi nào cung cấp 9B theo dạng hosted không
    Trong môi trường doanh nghiệp khó thuê GPU, OpenRouter lại không có model nhỏ
    Sẽ rất hay nếu có template serverless trên runpod
    Tôi cũng muốn biết liệu model 9B có thể chạy độ trễ thấp ở 8bit hoặc 6bit trên 4090 hay không

  • Tôi đã thử chạy Qwen3.5 35B-A3B trên RTX 3050 8GB, và thấy phản hồi khá nhanh, xử lý tác vụ lập trình cũng tốt
    Bản trước có vấn đề bị lặp khi dùng tool, nhưng có vẻ bản mới đã sửa rồi

    • Tôi muốn biết có đang offload sang RAM hệ thống không
      Tôi cũng muốn biết chỉ số tok/s
      Có vẻ ngay cả trên laptop RTX 3060 cũng sẽ chạy ổn như một local server
    • Tôi muốn biết bạn đã thử những ví dụ tác vụ lập trình nào
      Tôi không ngờ model local lại làm tốt đến vậy
    • Bạn có thể cho biết cụ thể tên model đã dùng không?
  • Tôi tò mò model 397B-A17B so với Frontier thì thế nào
    Có lẽ sẽ cần phần cứng đến mức hầu như đa số mọi người không thể chạy nổi

    • Tôi đã dùng qua OpenRouter, rất tốt, nhưng ở một số tác vụ thì Frontier vẫn nhỉnh hơn
      Cá nhân tôi thấy model 122B đã đủ thỏa mãn về quyền riêng tư và tiết kiệm chi phí
  • Tôi muốn biết model này có chạy được trên máy chủ 4xV100 Tesla cũ hay không
    Các thiết lập liên quan đến fp khá phức tạp nên với người mới thì rất khó hiểu