16 điểm bởi GN⁺ 2026-03-06 | 2 bình luận | Chia sẻ qua WhatsApp
  • Dòng mô hình Qwen3.5 (0.8B~122B) có thể được fine-tune dựa trên văn bản và thị giác bằng Unsloth, framework mã nguồn mở dành cho fine-tune LLM và học tăng cường
  • Unsloth cung cấp tốc độ huấn luyện nhanh hơn 1,5 lần so với FlashAttention-2giảm 50% VRAM, cho phép huấn luyện hiệu quả với thiết lập bf16 LoRA
  • Có thể thử nghiệm miễn phí các mô hình 0.8B, 2B, 4B qua notebook Colab, đồng thời cũng có notebook cho các mô hình 27B·35B dùng môi trường A100
  • Mô hình MoE (35B, 122B, v.v.) hỗ trợ huấn luyện nhanh hơn 12 lần, ít hơn 35% VRAM, và độ dài ngữ cảnh dài hơn 6 lần nhờ kernel mới nhất
  • Sau khi huấn luyện, mô hình có thể được xuất sang nhiều định dạng triển khai như GGUF, vLLM, Ollama, LM Studio, SGLang

Tổng quan fine-tune Qwen3.5

  • Có thể fine-tune dòng mô hình Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) bằng Unsloth
    • Hỗ trợ cả văn bản lẫn thị giác (vision)
    • Qwen3.5‑35B‑A3B bf16 LoRA chạy trên 74GB VRAM
  • Unsloth mang lại tốc độ huấn luyện nhanh hơn 1,5 lầnmức sử dụng VRAM ít hơn 50%
    • Mức dùng VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • Có thể thử nghiệm các mô hình 0.8B, 2B, 4B bằng notebook Google Colab miễn phí
  • Để duy trì năng lực suy luận, nên dùng tập dữ liệu có hơn 75% ví dụ reasoning
  • Cũng hỗ trợ Full Fine-Tuning(FFT), nhưng mức dùng VRAM tăng gấp 4 lần

Môi trường và thiết lập huấn luyện

  • Qwen3.5 là mô hình đa ngôn ngữ hỗ trợ 201 ngôn ngữ
  • Cũng hỗ trợ Reinforcement Learning(RL)Vision RL(VLM RL) thông qua Unsloth
  • notebook Colab A100 cho: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • Khi huấn luyện cục bộ, cần cập nhật lên phiên bản mới nhất
    • Lệnh: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • Bắt buộc dùng transformers v5, các bản cũ sẽ không hoạt động
  • Việc biên dịch Mamba Triton kernel có thể khiến lần huấn luyện đầu chậm hơn (đặc biệt trên GPU T4)
  • Không khuyến nghị huấn luyện QLoRA(4-bit)

Fine-tune mô hình MoE (35B, 122B)

  • Hỗ trợ các mô hình Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
    • Huấn luyện nhanh hơn 12 lần, ít hơn 35% VRAM, độ dài ngữ cảnh dài hơn 6 lần
  • Khuyến nghị dùng bf16 LoRA hoặc Full Fine-Tuning
  • Không khuyến nghị MoE QLoRA 4-bit do giới hạn của BitsandBytes
  • Unsloth MoE kernel được bật mặc định, có thể chuyển backend bằng UNSLOTH_MOE_BACKEND
  • Router-layer fine-tuning bị tắt mặc định vì lý do ổn định
  • Qwen3.5‑122B‑A10B bf16 LoRA cần 256GB VRAM
    • Khi dùng nhiều GPU, đặt device_map = "balanced" hoặc tham khảo hướng dẫn multiGPU

Quickstart

  • Có ví dụ SFT chỉ cho văn bản (fine-tune có giám sát)
  • Qwen3.5 có kiến trúc Causal Language Model + Vision Encoder
    • Cần cài các phụ thuộc cho vision (torchvision, pillow)
  • Khuyến nghị dùng phiên bản Transformers mới nhất
  • Huấn luyện GRPO có thể thực hiện bằng suy luận Unsloth sau khi tắt fast vLLM
  • Khi gặp OOM(tràn bộ nhớ)
    • per_device_train_batch_size=1, giảm max_seq_length
    • Giữ gradient_checkpointing="unsloth" để tiết kiệm VRAM và mở rộng ngữ cảnh
  • Có ví dụ loader cho MoE bf16 LoRA

Fine-tune vision

  • Hỗ trợ fine-tune vision cho mô hình Qwen3.5 đa phương thức
    • Có thể dùng notebook RL Qwen3-VL GRPO/GSPO (chỉ cần đổi tên mô hình)
  • Có thể chọn huấn luyện chỉ vision/chỉ văn bản
    • Fine-tune chọn lọc trong các lớp Vision, Language, Attention, MLP
    • Mặc định là bật toàn bộ
  • Với huấn luyện nhiều ảnh, hãy tham khảo hướng dẫn vision multi-image riêng

Lưu và triển khai mô hình

  • Hỗ trợ nhiều cách triển khai như llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang

Lưu GGUF

  • Unsloth hỗ trợ lưu trực tiếp định dạng GGUFtải lên Hugging Face
  • Nếu hiệu năng suy luận suy giảm, nguyên nhân chính thường là dùng chat template hoặc token EOS sai

Lưu vLLM

  • vLLM 0.16.0 không hỗ trợ Qwen3.5
    • Cần 0.170 trở lên hoặc bản Nightly
  • Có thể lưu 16-bit và chỉ lưu adapter LoRA
  • Chi tiết xem hướng dẫn inference của Unsloth

2 bình luận

 
hmmhmmhm 2026-03-06

Lần trước khi thử chạy fine-tuning thông qua agent thì có vẻ khá thường xuyên xảy ra vấn đề overfitting tùy theo dữ liệu, nên mình cũng tò mò không biết trong notebook lần này có thể làm được với tổ hợp LoRA/QLoRA hay không.

 
GN⁺ 2026-03-06
Ý kiến trên Hacker News
  • Tôi đã thử fine-tune mô hình Qwen trên phần cứng NVIDIA Jetson, và hiệu năng tốt đến mức đáng ngạc nhiên
    Tôi đã triển khai nhiều biến thể 7B cho các ứng dụng edge AI, và chúng đặc biệt hữu ích trong các môi trường như kiểm tra công nghiệp hay phân tích bán lẻ, nơi độ trễ (latency) quan trọng hơn độ chính xác
    Nhờ fine-tune bằng LoRA, mô hình đủ nhỏ để vừa với bộ nhớ hợp nhất, và tốc độ suy luận thời gian thực cũng đủ nhanh
    Điều khiến tôi ngạc nhiên nhất là hiệu quả điện năng — Jetson Orin có thể chạy suy luận liên tục ở mức dưới 15W, tiết kiệm năng lượng hơn rất nhiều so với việc round-trip lên cloud

    • Bình luận này trông như do AI tạo ra
      Dạo này trên Twitter hay Reddit cũng thường thấy kiểu bình luận theo định dạng giai thoại giả như vậy. Trông như người thật viết nhưng có vẻ toàn là chuyện bịa
    • Thú vị đấy. Tôi tò mò liệu có thể nêu ví dụ về tác vụ công nghiệp mà việc độ chính xác giảm đi một chút vẫn chấp nhận được không
    • Tôi muốn biết các trường hợp cụ thể mà người ta thực sự dùng các mô hình kiểu này cho công việc gì
    • Câu hỏi hơi đơn giản, nhưng tôi tự hỏi liệu với các trường hợp dùng này thì mạng nơ-ron (neural network) truyền thống thôi có đủ không
    • Bạn nói chạy mô hình 7B ở 15W, vậy đó là mẫu nào trong dòng Orin?
      Tôi muốn biết là Nano(40 TOPS), NX(100), hay AGX(275), và liệu bạn có thử các mô hình lớn hơn trên Thor(2070) không
  • Tôi tò mò về các trường hợp thực tế mà mọi người tự fine-tune mô hình nhỏ/vừa để sử dụng

    • Có một bài tổng hợp về chủ đề này trên X
      Bài viết liên quan
      Ví dụ như,
      1. Cursor cải thiện tỷ lệ được chấp thuận thêm 28% bằng online RL (liên kết)
      2. Vercel áp dụng RFT cho mô hình AutoFix (liên kết)
      3. Perplexity Sonar là mô hình fine-tune cho Deep Research Reasoning (liên kết)
      4. DoorDash xây dựng mô hình trích xuất thuộc tính bằng LoRA/QLoRA (liên kết)
      5. Mô hình phát hiện lũ lụt của NASA (liên kết)
      6. Online RL cho robotics
      7. Bộ sưu tập các trường hợp dùng OpenAI RFT (liên kết)
      8. Mercor cải thiện hiệu năng mô hình bằng dữ liệu chuyên gia (liên kết)
    • Tôi đã benchmark một tác vụ phân loại tài liệu đơn giản bằng nhiều mô hình
      Tôi so sánh độ chính xác và chi phí giữa các mô hình như Llama-70B, Gemma-4B, Ministral-14B,
      và ngay cả các mô hình 4B cũng cho hiệu năng khá ổn.
      Tuy vậy, tôi có cảm giác mình đã mất trực giác về “mối quan hệ giữa lượng dữ liệu và mức cải thiện hiệu năng”
      Tôi đang cân nhắc thử tự fine-tune
    • Tôi đang cân nhắc fine-tune để cải thiện độ chính xác nhận diện chữ viết tay của mình
      Mô hình gốc đã hoạt động tốt, nhưng do chữ xấu của tôi nên thỉnh thoảng vẫn nhận sai
    • Một ví dụ hay là hướng dẫn huấn luyện LLM trên blog Atredis
  • Có vẻ như hiện nay sự cần thiết của việc fine-tune LLM đang dần giảm đi
    Các mô hình mới nhất xử lý tốt cả các tác vụ phức tạp chỉ với few-shot learning
    Những mô hình có cửa sổ ngữ cảnh lớn như Qwen3.5 có thể được thay thế khá tốt chỉ bằng thiết kế prompt mạnh
    Điều này vẫn còn ý nghĩa với mô hình hình ảnh hoặc các LLM cũ hơn, nhưng với LLM văn bản thì đang ngày càng trở nên kém hiệu quả

    • Nếu fine-tune mô hình nhỏ để phù hợp với đầu ra có cấu trúc cụ thể, ta có thể chạy suy luận quy mô lớn với chi phí rẻ
      Việc mở rộng ngữ cảnh ở mô hình lớn quá tốn kém
    • LLM vẫn đang phát triển, nhưng trong các lĩnh vực như học liên tục cho robot hay fine-tune LoRA đa phương thức, tiềm năng vẫn còn rất lớn
      Có thể fine-tune cả vision + text như trong hướng dẫn của Unsloth
      Về sau có lẽ model routing sẽ trở nên phổ biến, theo đó dùng mô hình LoRA nhỏ ở local và đẩy các tác vụ phức tạp lên cloud
      Trên thực tế DoorDash, Vercel, NASA, Cursor và nhiều nơi khác cũng đang tự fine-tune
    • Tôi từng cố fine-tune mô hình để khớp với phong cách viết của mình
      Tôi đã thử với Claude, Qwen, Llama, Gemma, nhưng chuyển phong cách không hiệu quả
      Dù dùng hàng trăm bình luận của chính mình làm dữ liệu huấn luyện, các mô hình Instruct đã bị tuning quá mức đến mức gần như không thể học thêm gì nữa
    • Tóm lại chỉ bằng một câu thì là do dữ liệu nội dung người lớn
      Qwen đã lọc loại dữ liệu này trong quá trình huấn luyện, nên chỉ có thể khôi phục lại bằng fine-tune
      Ví dụ công việc liên quan: mô hình Qwen3 LoRA của chenrm
    • Trong các dịch vụ thực tế, fine-tune vẫn rất quan trọng
      Tổ hợp hành vi mang tính xác định và có thể kiểm toán, giảm hallucination, và LoRA/QLoRA để cắt giảm chi phí rất hữu ích
      Dùng cùng RAG và FAISS vector DB có thể ngăn ngữ cảnh phình to mất kiểm soát
      Về lâu dài, quản lý các adapter nhỏ hiệu quả hơn nhiều so với tinh chỉnh prompt
  • Thật tiếc khi một số lead của đội Qwen đã bị thay thế
    Tôi lo rằng khi ban lãnh đạo mới chuyển sang thiên về kinh doanh, tinh thần mã nguồn mở sẽ suy yếu

  • Chỉ với cách tiếp cận RAG xoay quanh tài liệu có vẻ đã đủ, nên tôi tự hỏi liệu fine-tune có thực sự cho kết quả tốt hơn không

    • Các mô hình chuyên biệt chắc chắn vượt qua SOTA
      Ví dụ: FlashCheck
    • Trước đây mô hình tab-next-action của Cursor từng gây tiếng vang lớn, và thực ra đó là phiên bản fine-tune của mô hình 70B
  • Có vẻ tài liệu lần này chỉ bàn về các mô hình MoE cỡ lớn
    Phần lớn người dùng có lẽ sẽ nhắm tới mô hình nhỏ hơn (ví dụ: 9B),
    và mô hình này dùng kiến trúc Mamba lai, nên có lẽ cần cân nhắc riêng