Hướng dẫn fine-tune Qwen3.5

(unsloth.ai)

16 điểm bởi GN⁺ 2026-03-06 | 2 bình luận | Chia sẻ qua WhatsApp

Dòng mô hình Qwen3.5 (0.8B~122B) có thể được fine-tune dựa trên văn bản và thị giác bằng Unsloth, framework mã nguồn mở dành cho fine-tune LLM và học tăng cường
Unsloth cung cấp tốc độ huấn luyện nhanh hơn 1,5 lần so với FlashAttention-2 và giảm 50% VRAM, cho phép huấn luyện hiệu quả với thiết lập bf16 LoRA
Có thể thử nghiệm miễn phí các mô hình 0.8B, 2B, 4B qua notebook Colab, đồng thời cũng có notebook cho các mô hình 27B·35B dùng môi trường A100
Mô hình MoE (35B, 122B, v.v.) hỗ trợ huấn luyện nhanh hơn 12 lần, ít hơn 35% VRAM, và độ dài ngữ cảnh dài hơn 6 lần nhờ kernel mới nhất
Sau khi huấn luyện, mô hình có thể được xuất sang nhiều định dạng triển khai như GGUF, vLLM, Ollama, LM Studio, SGLang

Tổng quan fine-tune Qwen3.5

Có thể fine-tune dòng mô hình Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) bằng Unsloth
- Hỗ trợ cả văn bản lẫn thị giác (vision)
- Qwen3.5‑35B‑A3B bf16 LoRA chạy trên 74GB VRAM
Unsloth mang lại tốc độ huấn luyện nhanh hơn 1,5 lần và mức sử dụng VRAM ít hơn 50%
- Mức dùng VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
Có thể thử nghiệm các mô hình 0.8B, 2B, 4B bằng notebook Google Colab miễn phí
Để duy trì năng lực suy luận, nên dùng tập dữ liệu có hơn 75% ví dụ reasoning
Cũng hỗ trợ Full Fine-Tuning(FFT), nhưng mức dùng VRAM tăng gấp 4 lần

Môi trường và thiết lập huấn luyện

Qwen3.5 là mô hình đa ngôn ngữ hỗ trợ 201 ngôn ngữ
Cũng hỗ trợ Reinforcement Learning(RL) và Vision RL(VLM RL) thông qua Unsloth
Có notebook Colab A100 cho: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
Khi huấn luyện cục bộ, cần cập nhật lên phiên bản mới nhất
- Lệnh: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
Bắt buộc dùng transformers v5, các bản cũ sẽ không hoạt động
Việc biên dịch Mamba Triton kernel có thể khiến lần huấn luyện đầu chậm hơn (đặc biệt trên GPU T4)
Không khuyến nghị huấn luyện QLoRA(4-bit)

Fine-tune mô hình MoE (35B, 122B)

Hỗ trợ các mô hình Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Huấn luyện nhanh hơn 12 lần, ít hơn 35% VRAM, độ dài ngữ cảnh dài hơn 6 lần
Khuyến nghị dùng bf16 LoRA hoặc Full Fine-Tuning
Không khuyến nghị MoE QLoRA 4-bit do giới hạn của BitsandBytes
Unsloth MoE kernel được bật mặc định, có thể chuyển backend bằng UNSLOTH_MOE_BACKEND
Router-layer fine-tuning bị tắt mặc định vì lý do ổn định
Qwen3.5‑122B‑A10B bf16 LoRA cần 256GB VRAM
- Khi dùng nhiều GPU, đặt device_map = "balanced" hoặc tham khảo hướng dẫn multiGPU

Quickstart

Có ví dụ SFT chỉ cho văn bản (fine-tune có giám sát)
Qwen3.5 có kiến trúc Causal Language Model + Vision Encoder
- Cần cài các phụ thuộc cho vision (torchvision, pillow)
Khuyến nghị dùng phiên bản Transformers mới nhất
Huấn luyện GRPO có thể thực hiện bằng suy luận Unsloth sau khi tắt fast vLLM
Khi gặp OOM(tràn bộ nhớ)
- per_device_train_batch_size=1, giảm max_seq_length
- Giữ gradient_checkpointing="unsloth" để tiết kiệm VRAM và mở rộng ngữ cảnh
Có ví dụ loader cho MoE bf16 LoRA

Fine-tune vision

Hỗ trợ fine-tune vision cho mô hình Qwen3.5 đa phương thức
- Có thể dùng notebook RL Qwen3-VL GRPO/GSPO (chỉ cần đổi tên mô hình)
Có thể chọn huấn luyện chỉ vision/chỉ văn bản
- Fine-tune chọn lọc trong các lớp Vision, Language, Attention, MLP
- Mặc định là bật toàn bộ
Với huấn luyện nhiều ảnh, hãy tham khảo hướng dẫn vision multi-image riêng

Lưu và triển khai mô hình

Hỗ trợ nhiều cách triển khai như llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Lưu GGUF

Unsloth hỗ trợ lưu trực tiếp định dạng GGUF và tải lên Hugging Face
Nếu hiệu năng suy luận suy giảm, nguyên nhân chính thường là dùng chat template hoặc token EOS sai

Lưu vLLM

vLLM 0.16.0 không hỗ trợ Qwen3.5
- Cần 0.170 trở lên hoặc bản Nightly
Có thể lưu 16-bit và chỉ lưu adapter LoRA
Chi tiết xem hướng dẫn inference của Unsloth

2 bình luận

hmmhmmhm 2026-03-06

Lần trước khi thử chạy fine-tuning thông qua agent thì có vẻ khá thường xuyên xảy ra vấn đề overfitting tùy theo dữ liệu, nên mình cũng tò mò không biết trong notebook lần này có thể làm được với tổ hợp LoRA/QLoRA hay không.

GN⁺ 2026-03-06

Ý kiến trên Hacker News

Tôi đã thử fine-tune mô hình Qwen trên phần cứng NVIDIA Jetson, và hiệu năng tốt đến mức đáng ngạc nhiên
Tôi đã triển khai nhiều biến thể 7B cho các ứng dụng edge AI, và chúng đặc biệt hữu ích trong các môi trường như kiểm tra công nghiệp hay phân tích bán lẻ, nơi độ trễ (latency) quan trọng hơn độ chính xác
Nhờ fine-tune bằng LoRA, mô hình đủ nhỏ để vừa với bộ nhớ hợp nhất, và tốc độ suy luận thời gian thực cũng đủ nhanh
Điều khiến tôi ngạc nhiên nhất là hiệu quả điện năng — Jetson Orin có thể chạy suy luận liên tục ở mức dưới 15W, tiết kiệm năng lượng hơn rất nhiều so với việc round-trip lên cloud
- Bình luận này trông như do AI tạo ra
  Dạo này trên Twitter hay Reddit cũng thường thấy kiểu bình luận theo định dạng giai thoại giả như vậy. Trông như người thật viết nhưng có vẻ toàn là chuyện bịa
- Thú vị đấy. Tôi tò mò liệu có thể nêu ví dụ về tác vụ công nghiệp mà việc độ chính xác giảm đi một chút vẫn chấp nhận được không
- Tôi muốn biết các trường hợp cụ thể mà người ta thực sự dùng các mô hình kiểu này cho công việc gì
- Câu hỏi hơi đơn giản, nhưng tôi tự hỏi liệu với các trường hợp dùng này thì mạng nơ-ron (neural network) truyền thống thôi có đủ không
- Bạn nói chạy mô hình 7B ở 15W, vậy đó là mẫu nào trong dòng Orin?
  Tôi muốn biết là Nano(40 TOPS), NX(100), hay AGX(275), và liệu bạn có thử các mô hình lớn hơn trên Thor(2070) không
Tôi tò mò về các trường hợp thực tế mà mọi người tự fine-tune mô hình nhỏ/vừa để sử dụng
- Có một bài tổng hợp về chủ đề này trên X
  Bài viết liên quan
  Ví dụ như,
  1. Cursor cải thiện tỷ lệ được chấp thuận thêm 28% bằng online RL (liên kết)
  2. Vercel áp dụng RFT cho mô hình AutoFix (liên kết)
  3. Perplexity Sonar là mô hình fine-tune cho Deep Research Reasoning (liên kết)
  4. DoorDash xây dựng mô hình trích xuất thuộc tính bằng LoRA/QLoRA (liên kết)
  5. Mô hình phát hiện lũ lụt của NASA (liên kết)
  6. Online RL cho robotics
  7. Bộ sưu tập các trường hợp dùng OpenAI RFT (liên kết)
  8. Mercor cải thiện hiệu năng mô hình bằng dữ liệu chuyên gia (liên kết)
- Tôi đã benchmark một tác vụ phân loại tài liệu đơn giản bằng nhiều mô hình
  Tôi so sánh độ chính xác và chi phí giữa các mô hình như Llama-70B, Gemma-4B, Ministral-14B,
  và ngay cả các mô hình 4B cũng cho hiệu năng khá ổn.
  Tuy vậy, tôi có cảm giác mình đã mất trực giác về “mối quan hệ giữa lượng dữ liệu và mức cải thiện hiệu năng”
  Tôi đang cân nhắc thử tự fine-tune
- Tôi đang cân nhắc fine-tune để cải thiện độ chính xác nhận diện chữ viết tay của mình
  Mô hình gốc đã hoạt động tốt, nhưng do chữ xấu của tôi nên thỉnh thoảng vẫn nhận sai
- Một ví dụ hay là hướng dẫn huấn luyện LLM trên blog Atredis
Có vẻ như hiện nay sự cần thiết của việc fine-tune LLM đang dần giảm đi
Các mô hình mới nhất xử lý tốt cả các tác vụ phức tạp chỉ với few-shot learning
Những mô hình có cửa sổ ngữ cảnh lớn như Qwen3.5 có thể được thay thế khá tốt chỉ bằng thiết kế prompt mạnh
Điều này vẫn còn ý nghĩa với mô hình hình ảnh hoặc các LLM cũ hơn, nhưng với LLM văn bản thì đang ngày càng trở nên kém hiệu quả
- Nếu fine-tune mô hình nhỏ để phù hợp với đầu ra có cấu trúc cụ thể, ta có thể chạy suy luận quy mô lớn với chi phí rẻ
  Việc mở rộng ngữ cảnh ở mô hình lớn quá tốn kém
- LLM vẫn đang phát triển, nhưng trong các lĩnh vực như học liên tục cho robot hay fine-tune LoRA đa phương thức, tiềm năng vẫn còn rất lớn
  Có thể fine-tune cả vision + text như trong hướng dẫn của Unsloth
  Về sau có lẽ model routing sẽ trở nên phổ biến, theo đó dùng mô hình LoRA nhỏ ở local và đẩy các tác vụ phức tạp lên cloud
  Trên thực tế DoorDash, Vercel, NASA, Cursor và nhiều nơi khác cũng đang tự fine-tune
- Tôi từng cố fine-tune mô hình để khớp với phong cách viết của mình
  Tôi đã thử với Claude, Qwen, Llama, Gemma, nhưng chuyển phong cách không hiệu quả
  Dù dùng hàng trăm bình luận của chính mình làm dữ liệu huấn luyện, các mô hình Instruct đã bị tuning quá mức đến mức gần như không thể học thêm gì nữa
- Tóm lại chỉ bằng một câu thì là do dữ liệu nội dung người lớn
  Qwen đã lọc loại dữ liệu này trong quá trình huấn luyện, nên chỉ có thể khôi phục lại bằng fine-tune
  Ví dụ công việc liên quan: mô hình Qwen3 LoRA của chenrm
- Trong các dịch vụ thực tế, fine-tune vẫn rất quan trọng
  Tổ hợp hành vi mang tính xác định và có thể kiểm toán, giảm hallucination, và LoRA/QLoRA để cắt giảm chi phí rất hữu ích
  Dùng cùng RAG và FAISS vector DB có thể ngăn ngữ cảnh phình to mất kiểm soát
  Về lâu dài, quản lý các adapter nhỏ hiệu quả hơn nhiều so với tinh chỉnh prompt
Thật tiếc khi một số lead của đội Qwen đã bị thay thế
Tôi lo rằng khi ban lãnh đạo mới chuyển sang thiên về kinh doanh, tinh thần mã nguồn mở sẽ suy yếu
- Tôi có thấy tin liên quan trên X
  Tin về cuộc họp khẩn giữa CEO/CTO Alibaba
  Hy vọng mọi chuyện sẽ được giải quyết ổn thỏa
Chỉ với cách tiếp cận RAG xoay quanh tài liệu có vẻ đã đủ, nên tôi tự hỏi liệu fine-tune có thực sự cho kết quả tốt hơn không
- Các mô hình chuyên biệt chắc chắn vượt qua SOTA
  Ví dụ: FlashCheck
- Trước đây mô hình tab-next-action của Cursor từng gây tiếng vang lớn, và thực ra đó là phiên bản fine-tune của mô hình 70B
Có vẻ tài liệu lần này chỉ bàn về các mô hình MoE cỡ lớn
Phần lớn người dùng có lẽ sẽ nhắm tới mô hình nhỏ hơn (ví dụ: 9B),
và mô hình này dùng kiến trúc Mamba lai, nên có lẽ cần cân nhắc riêng