- Dòng mô hình Qwen3.5 (0.8B~122B) có thể được fine-tune dựa trên văn bản và thị giác bằng Unsloth, framework mã nguồn mở dành cho fine-tune LLM và học tăng cường
- Unsloth cung cấp tốc độ huấn luyện nhanh hơn 1,5 lần so với FlashAttention-2 và giảm 50% VRAM, cho phép huấn luyện hiệu quả với thiết lập bf16 LoRA
- Có thể thử nghiệm miễn phí các mô hình 0.8B, 2B, 4B qua notebook Colab, đồng thời cũng có notebook cho các mô hình 27B·35B dùng môi trường A100
- Mô hình MoE (35B, 122B, v.v.) hỗ trợ huấn luyện nhanh hơn 12 lần, ít hơn 35% VRAM, và độ dài ngữ cảnh dài hơn 6 lần nhờ kernel mới nhất
- Sau khi huấn luyện, mô hình có thể được xuất sang nhiều định dạng triển khai như GGUF, vLLM, Ollama, LM Studio, SGLang
Tổng quan fine-tune Qwen3.5
- Có thể fine-tune dòng mô hình Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) bằng Unsloth
- Hỗ trợ cả văn bản lẫn thị giác (vision)
- Qwen3.5‑35B‑A3B bf16 LoRA chạy trên 74GB VRAM
- Unsloth mang lại tốc độ huấn luyện nhanh hơn 1,5 lần và mức sử dụng VRAM ít hơn 50%
- Mức dùng VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- Có thể thử nghiệm các mô hình 0.8B, 2B, 4B bằng notebook Google Colab miễn phí
- Để duy trì năng lực suy luận, nên dùng tập dữ liệu có hơn 75% ví dụ reasoning
- Cũng hỗ trợ Full Fine-Tuning(FFT), nhưng mức dùng VRAM tăng gấp 4 lần
Môi trường và thiết lập huấn luyện
- Qwen3.5 là mô hình đa ngôn ngữ hỗ trợ 201 ngôn ngữ
- Cũng hỗ trợ Reinforcement Learning(RL) và Vision RL(VLM RL) thông qua Unsloth
- Có notebook Colab A100 cho: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- Khi huấn luyện cục bộ, cần cập nhật lên phiên bản mới nhất
- Lệnh:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- Bắt buộc dùng transformers v5, các bản cũ sẽ không hoạt động
- Việc biên dịch Mamba Triton kernel có thể khiến lần huấn luyện đầu chậm hơn (đặc biệt trên GPU T4)
- Không khuyến nghị huấn luyện QLoRA(4-bit)
Fine-tune mô hình MoE (35B, 122B)
- Hỗ trợ các mô hình Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Huấn luyện nhanh hơn 12 lần, ít hơn 35% VRAM, độ dài ngữ cảnh dài hơn 6 lần
- Khuyến nghị dùng bf16 LoRA hoặc Full Fine-Tuning
- Không khuyến nghị MoE QLoRA 4-bit do giới hạn của BitsandBytes
- Unsloth MoE kernel được bật mặc định, có thể chuyển backend bằng
UNSLOTH_MOE_BACKEND
- Router-layer fine-tuning bị tắt mặc định vì lý do ổn định
- Qwen3.5‑122B‑A10B bf16 LoRA cần 256GB VRAM
- Khi dùng nhiều GPU, đặt
device_map = "balanced" hoặc tham khảo hướng dẫn multiGPU
Quickstart
- Có ví dụ SFT chỉ cho văn bản (fine-tune có giám sát)
- Qwen3.5 có kiến trúc Causal Language Model + Vision Encoder
- Cần cài các phụ thuộc cho vision (
torchvision, pillow)
- Khuyến nghị dùng phiên bản Transformers mới nhất
- Huấn luyện GRPO có thể thực hiện bằng suy luận Unsloth sau khi tắt fast vLLM
- Khi gặp OOM(tràn bộ nhớ)
per_device_train_batch_size=1, giảm max_seq_length
- Giữ
gradient_checkpointing="unsloth" để tiết kiệm VRAM và mở rộng ngữ cảnh
- Có ví dụ loader cho MoE bf16 LoRA
Fine-tune vision
- Hỗ trợ fine-tune vision cho mô hình Qwen3.5 đa phương thức
- Có thể dùng notebook RL Qwen3-VL GRPO/GSPO (chỉ cần đổi tên mô hình)
- Có thể chọn huấn luyện chỉ vision/chỉ văn bản
- Fine-tune chọn lọc trong các lớp Vision, Language, Attention, MLP
- Mặc định là bật toàn bộ
- Với huấn luyện nhiều ảnh, hãy tham khảo hướng dẫn vision multi-image riêng
Lưu và triển khai mô hình
- Hỗ trợ nhiều cách triển khai như llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang
Lưu GGUF
- Unsloth hỗ trợ lưu trực tiếp định dạng GGUF và tải lên Hugging Face
- Nếu hiệu năng suy luận suy giảm, nguyên nhân chính thường là dùng chat template hoặc token EOS sai
Lưu vLLM
- vLLM 0.16.0 không hỗ trợ Qwen3.5
- Cần 0.170 trở lên hoặc bản Nightly
- Có thể lưu 16-bit và chỉ lưu adapter LoRA
- Chi tiết xem hướng dẫn inference của Unsloth
2 bình luận
Lần trước khi thử chạy fine-tuning thông qua agent thì có vẻ khá thường xuyên xảy ra vấn đề overfitting tùy theo dữ liệu, nên mình cũng tò mò không biết trong notebook lần này có thể làm được với tổ hợp LoRA/QLoRA hay không.
Ý kiến trên Hacker News
Tôi đã thử fine-tune mô hình Qwen trên phần cứng NVIDIA Jetson, và hiệu năng tốt đến mức đáng ngạc nhiên
Tôi đã triển khai nhiều biến thể 7B cho các ứng dụng edge AI, và chúng đặc biệt hữu ích trong các môi trường như kiểm tra công nghiệp hay phân tích bán lẻ, nơi độ trễ (latency) quan trọng hơn độ chính xác
Nhờ fine-tune bằng LoRA, mô hình đủ nhỏ để vừa với bộ nhớ hợp nhất, và tốc độ suy luận thời gian thực cũng đủ nhanh
Điều khiến tôi ngạc nhiên nhất là hiệu quả điện năng — Jetson Orin có thể chạy suy luận liên tục ở mức dưới 15W, tiết kiệm năng lượng hơn rất nhiều so với việc round-trip lên cloud
Dạo này trên Twitter hay Reddit cũng thường thấy kiểu bình luận theo định dạng giai thoại giả như vậy. Trông như người thật viết nhưng có vẻ toàn là chuyện bịa
Tôi muốn biết là Nano(40 TOPS), NX(100), hay AGX(275), và liệu bạn có thử các mô hình lớn hơn trên Thor(2070) không
Tôi tò mò về các trường hợp thực tế mà mọi người tự fine-tune mô hình nhỏ/vừa để sử dụng
Bài viết liên quan
Ví dụ như,
Tôi so sánh độ chính xác và chi phí giữa các mô hình như Llama-70B, Gemma-4B, Ministral-14B,
và ngay cả các mô hình 4B cũng cho hiệu năng khá ổn.
Tuy vậy, tôi có cảm giác mình đã mất trực giác về “mối quan hệ giữa lượng dữ liệu và mức cải thiện hiệu năng”
Tôi đang cân nhắc thử tự fine-tune
Mô hình gốc đã hoạt động tốt, nhưng do chữ xấu của tôi nên thỉnh thoảng vẫn nhận sai
Có vẻ như hiện nay sự cần thiết của việc fine-tune LLM đang dần giảm đi
Các mô hình mới nhất xử lý tốt cả các tác vụ phức tạp chỉ với few-shot learning
Những mô hình có cửa sổ ngữ cảnh lớn như Qwen3.5 có thể được thay thế khá tốt chỉ bằng thiết kế prompt mạnh
Điều này vẫn còn ý nghĩa với mô hình hình ảnh hoặc các LLM cũ hơn, nhưng với LLM văn bản thì đang ngày càng trở nên kém hiệu quả
Việc mở rộng ngữ cảnh ở mô hình lớn quá tốn kém
Có thể fine-tune cả vision + text như trong hướng dẫn của Unsloth
Về sau có lẽ model routing sẽ trở nên phổ biến, theo đó dùng mô hình LoRA nhỏ ở local và đẩy các tác vụ phức tạp lên cloud
Trên thực tế DoorDash, Vercel, NASA, Cursor và nhiều nơi khác cũng đang tự fine-tune
Tôi đã thử với Claude, Qwen, Llama, Gemma, nhưng chuyển phong cách không hiệu quả
Dù dùng hàng trăm bình luận của chính mình làm dữ liệu huấn luyện, các mô hình Instruct đã bị tuning quá mức đến mức gần như không thể học thêm gì nữa
Qwen đã lọc loại dữ liệu này trong quá trình huấn luyện, nên chỉ có thể khôi phục lại bằng fine-tune
Ví dụ công việc liên quan: mô hình Qwen3 LoRA của chenrm
Tổ hợp hành vi mang tính xác định và có thể kiểm toán, giảm hallucination, và LoRA/QLoRA để cắt giảm chi phí rất hữu ích
Dùng cùng RAG và FAISS vector DB có thể ngăn ngữ cảnh phình to mất kiểm soát
Về lâu dài, quản lý các adapter nhỏ hiệu quả hơn nhiều so với tinh chỉnh prompt
Thật tiếc khi một số lead của đội Qwen đã bị thay thế
Tôi lo rằng khi ban lãnh đạo mới chuyển sang thiên về kinh doanh, tinh thần mã nguồn mở sẽ suy yếu
Tin về cuộc họp khẩn giữa CEO/CTO Alibaba
Hy vọng mọi chuyện sẽ được giải quyết ổn thỏa
Chỉ với cách tiếp cận RAG xoay quanh tài liệu có vẻ đã đủ, nên tôi tự hỏi liệu fine-tune có thực sự cho kết quả tốt hơn không
Ví dụ: FlashCheck
Có vẻ tài liệu lần này chỉ bàn về các mô hình MoE cỡ lớn
Phần lớn người dùng có lẽ sẽ nhắm tới mô hình nhỏ hơn (ví dụ: 9B),
và mô hình này dùng kiến trúc Mamba lai, nên có lẽ cần cân nhắc riêng