6 điểm bởi newgrit1004 2026-04-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Xin chào. Nhờ sự quan tâm mà mọi người đã dành cho dự án tối ưu hóa kernel Triton cho Qwen3-TTS lần trước, tôi xin chia sẻ dự án mã nguồn mở thứ hai.

Đây là nút tùy chỉnh ComfyUI giúp tăng tốc suy luận thêm 20~30% cho Z-Image S3-DiT (6.15B), một mô hình tạo ảnh phổ biến đang ghi nhận hơn 3,6 triệu lượt tải mỗi tháng trên HuggingFace.

1. Vì sao tôi tạo ra nó? (bối cảnh và đặc điểm)
Hiện đã có Nunchaku(SVDQuant) như một công cụ tăng tốc Z-Image, nhưng nó chỉ hỗ trợ mô hình Z-Image 'Turbo'. Tôi cho rằng cần có một giải pháp tăng tốc ở cấp độ kernel cho mô hình Base.

Ngoài ra, từ góc nhìn người dùng, việc phải tải lại các mô hình đã lượng tử hóa có dung lượng lên tới hàng chục GB (GGUF, v.v.) là một gánh nặng lớn. Vì vậy, tôi đã làm cho mô hình BF16 safetensors mà bạn đang dùng có thể được lượng tử hóa ngay trong thời gian chạy (On-the-fly Quantization) để tiếp tục sử dụng nguyên trạng.

  • Có thể cài đặt chỉ với một cú nhấp thông qua ComfyUI Manager hoặc cài đơn giản bằng pip install. (Không có áp lực từ việc build CUDA tùy chỉnh rắc rối hay phải khớp phiên bản.)
  • Chỉ cần thêm 1 node vào workflow hiện có, đồng thời tương thích hoàn hảo với LoRA và ControlNet.

2. Benchmark hiệu năng (RTX 5090, mốc 30 bước)

  • T2I Baseline: 18.9s → Triton + INT8: 15.3s (tăng tốc 1.24x)
  • LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s (tăng tốc 1.30x)
  • Tiết kiệm VRAM: tổng 23GB → 19.5GB (giảm khoảng 3.5GB)

3. Tự mắt kiểm chứng khả năng giữ chất lượng (không cherry-pick)
Ở dự án TTS lần trước, để kiểm tra kết quả, mọi người phải tải trực tiếp file âm thanh về rồi nghe, khá bất tiện; còn lần này, có thể so sánh chất lượng ngay trên web.

Tôi không hề thực hiện bất kỳ hành vi cherry-picking nào để so sánh hiệu năng. Do đặc tính của kernel fusion và lượng tử hóa, vẫn có những thay đổi rất nhỏ ở mức pixel, nhưng bố cục tổng thể và chất lượng chi tiết vẫn được giữ lại rất tốt. Hãy xem trực tiếp ảnh đối chiếu gốc của mọi kịch bản tại liên kết dưới đây.

4. Các điểm kỹ thuật nổi bật
Phần mã kernel lần này cũng nhận được rất nhiều sự hỗ trợ từ Claude Code, còn tôi thì dồn toàn bộ năng lượng vào việc benchmark kỹ lưỡng và kiểm chứng chất lượng.

  • Áp dụng 6 kernel fusion Triton (RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D)
  • Thông qua W8A8 + Hadamard Rotation (dựa trên NeurIPS 2024 QuaRot / ConvRot), phân tán outlier để giữ chất lượng lượng tử hóa ở mức tối đa

5. Báo trước cập nhật cho dự án trước đó
Nói thêm, dự án qwen3-tts-triton mà tôi từng công bố trước đây cũng sẽ sớm được đưa sang dạng nút tùy chỉnh ComfyUI. (cập nhật v0.2.0: giảm hiện tượng phát âm bị bệt thông qua hybrid Triton+PyTorch, áp dụng TurboQuant, thay công cụ đánh giá Cohere, v.v.)

Hiện tôi đã hoàn tất kiểm thử trong môi trường cá nhân của mình (RTX 5090). Nếu bạn thử chạy trên GPU dòng 30/40 hoặc trong các môi trường khác rồi để lại phản hồi qua GitHub issue hoặc bình luận, điều đó sẽ thực sự giúp ích rất nhiều. Xin cảm ơn!

Chưa có bình luận nào.

Chưa có bình luận nào.