- Qwen3-TTS là dòng mô hình tạo giọng nói đa ngôn ngữ hỗ trợ sao chép giọng nói, thiết kế giọng nói, tạo giọng người chất lượng cực cao và điều khiển bằng ngôn ngữ tự nhiên
- Hỗ trợ 10 ngôn ngữ chính và nhiều phương ngữ như tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn, đồng thời cung cấp hai kích thước mô hình 1.7B và 0.6B
- Thông qua encoder Qwen3-TTS-Tokenizer-12Hz do hãng tự phát triển, hệ thống nén tín hiệu âm thanh hiệu quả và bảo toàn trọn vẹn thông tin phi ngôn ngữ cùng môi trường âm học
- Với kiến trúc streaming Dual-Track, sau khi nhập 1 ký tự có thể xuất ngay gói âm thanh đầu tiên, đạt hiệu năng tổng hợp thời gian thực với độ trễ 97ms
- Việc phát hành mã nguồn mở giúp nhà phát triển và doanh nghiệp trực tiếp tận dụng công nghệ tạo giọng chất lượng cao
Tổng quan về Qwen3-TTS
- Qwen3-TTS là dòng mô hình tạo giọng nói hiệu năng cao do Qwen phát triển, tích hợp các khả năng thiết kế, sao chép, tạo và điều khiển giọng nói
- Có thể điều khiển màu giọng, cảm xúc, ngữ điệu... bằng lệnh ngôn ngữ tự nhiên
- Có thể truy cập qua Qwen API và GitHub
- Dựa trên encoder đa codebook Qwen3-TTS-Tokenizer-12Hz, mô hình hiện thực hóa việc khôi phục giọng nói tốc độ cao, độ trung thực cao và nén hiệu quả
- Hỗ trợ xuất giọng nói thời gian thực ở cấp ký tự nhờ streaming hai chiều Dual-Track
Cấu hình mô hình
- Toàn bộ dòng mô hình được cung cấp với hai kích thước: 1.7B và 0.6B
- 1.7B: cung cấp hiệu năng cao nhất và khả năng điều khiển tinh vi
- 0.6B: cân bằng giữa hiệu năng và hiệu quả
- Cả hai mô hình đều hỗ trợ tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Pháp, tiếng Nga, tiếng Bồ Đào Nha, tiếng Tây Ban Nha và tiếng Ý
- Có thể sao chép giọng nhanh chỉ với 3 giây đầu vào giọng nói, đồng thời dùng được cho fine-tuning (FT)
Các đặc điểm kỹ thuật chính
- Khả năng biểu đạt giọng nói hiệu năng cao
- Qwen3-TTS-Tokenizer-12Hz thực hiện mô hình hóa và nén ngữ nghĩa bậc cao của tín hiệu âm thanh
- Bảo toàn thông tin phi ngôn ngữ và âm thanh môi trường, hỗ trợ khôi phục tốc độ cao với kiến trúc non-DiT gọn nhẹ
- Kiến trúc đa codebook end-to-end
- Loại bỏ nút thắt thông tin và vấn đề tích lũy lỗi của cách tiếp cận LM+DiT truyền thống
- Nâng cao tính tổng quát của mô hình, hiệu quả tạo sinh và giới hạn hiệu năng
- Tổng hợp streaming siêu độ trễ thấp
- Kiến trúc lai Dual-Track hỗ trợ đồng thời streaming và non-streaming
- Xuất âm thanh đầu tiên sau khi nhập 1 ký tự, đạt độ trễ 97ms
- Hiểu văn bản thông minh và điều khiển giọng nói
- Dựa trên lệnh ngôn ngữ tự nhiên để điều khiển các thuộc tính đa chiều như màu giọng, cảm xúc, ngữ điệu
- Tự động điều chỉnh tông và nhịp điệu theo ngữ nghĩa văn bản
Đánh giá hiệu năng mô hình
- Thiết kế giọng nói: trên benchmark InstructTTS-Eval, đạt khả năng thực hiện chỉ thị và biểu đạt cao hơn MiniMax-Voice-Design
- Điều khiển giọng nói: trong tổng quát hóa đa ngôn ngữ đơn người nói, ghi nhận WER 2.34% và điểm điều khiển phong cách 75.4%
- Ngay cả khi tổng hợp liên tục 10 phút, vẫn duy trì WER tiếng Trung 2.36% và tiếng Anh 2.81%
- Sao chép giọng nói: trong Seed-tts-eval, ổn định hơn MiniMax và SeedTTS
- Trung bình trên 10 ngôn ngữ đạt WER 1.835%, độ tương đồng người nói 0.789, vượt hiệu năng của CosyVoice3
Hiệu năng Tokenizer
- Đạt SOTA trên bộ LibriSpeech test-clean
- PESQ: băng rộng 3.21, băng hẹp 3.68
- STOI: 0.96, UTMOS: 4.16
- Với độ tương đồng người nói 0.95, gần như bảo toàn thông tin người nói ở mức không mất mát
Thiết kế giọng nói và mẫu thử
- Có thể tạo màu giọng tùy biến dựa trên mô tả bằng ngôn ngữ tự nhiên
- Điều khiển chi tiết các thuộc tính như giới tính, độ tuổi, cảm xúc, ngữ điệu
- Ví dụ: giọng nam mang tính mệnh lệnh, giọng nữ giàu cảm xúc, màu giọng theo độ tuổi...
- Tính năng Timbre Reuse cho phép lưu và tái sử dụng màu giọng đã tạo
- Có thể ứng dụng cho hội thoại nhiều người nói hoặc lời dẫn dài
CustomVoice và điều khiển màu giọng
- Ngay cả sau khi fine-tuning theo từng người nói, vẫn có thể duy trì màu giọng mục tiêu và phát âm đa ngôn ngữ
- Hỗ trợ cả điều khiển một thuộc tính và nhiều thuộc tính cùng lúc
- Ví dụ: điều chỉnh cảm xúc tinh vi như buồn bã, tức giận, thì thầm, cách nói chậm...
- Cung cấp 9 bộ màu giọng công khai
- Bao gồm tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn và các phương ngữ
- Ví dụ: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) v.v.
Voice Clone và sao chép đa ngôn ngữ
- Thực hiện sao chép giọng tốc độ cao chỉ với 3 giây đầu vào giọng nói
- Ngoài sao chép tiếng Trung và tiếng Anh, còn hỗ trợ sao chép xuyên ngôn ngữ
- Ví dụ: có thể phát âm đa ngôn ngữ như tiếng Nhật, tiếng Hàn
- Đảm bảo độ bền vững trước nhiễu văn bản
- Ngay cả câu chứa ký hiệu phức tạp, pinyin và ký tự đặc biệt cũng được phát âm chính xác
Khôi phục âm thanh dựa trên Tokenizer
- Có thể khôi phục nhiều yếu tố âm thanh như phương ngữ, hát, âm thanh phi ngôn ngữ, tiếng nền
- Chứng minh chất lượng tái tạo có độ trung thực cao so với bản gốc
3 bình luận
Ồ, chạy được cả trên laptop nữa.
Dạo này tôi cũng dùng rất nhiều mô hình dựa trên Qwen ở môi trường local.
Ban đầu chỉ nghĩ chắc vì là mô hình của Alibaba thôi, nhưng thật sự ấn tượng khi họ liên tục cải tiến và mở rộng nó.
Ý kiến trên Hacker News
Đã thử chạy trên macOS bằng mlx-audio. Làm được nhờ tweet của Prince Canuma
Script tôi dùng ở đây
Chạy bằng
uvthì ban đầu sẽ tải model 4.5GB. Ví dụ lệnh như sauuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavNếu muốn tự thử voice cloning, có thể làm trên demo Hugging Face
Vào tab "Voice Clone", dán văn bản mẫu, dùng mic ghi âm giọng của mình, rồi nhập một văn bản khác để tạo ra phiên bản được đọc bằng chính giọng của bạn
Mẫu âm thanh tôi tạo được chia sẻ ở đây
Một model khá thú vị. Tôi đã chạy model 0.6B trên GPU 1080, có thể sinh theo từng đoạn 200 ký tự mà không bị OOM. Tôi thử làm audiobook Đạo Đức Kinh, nhưng kết quả mỗi lần một khác, giống như vòng quay ma thuật vậy. Có đoạn thì rõ ràng, có đoạn lại cười hoặc rên, cảm xúc rất thất thường. Giọng Ryan ổn định nhất, còn Eric thì nghe như giọng Hoa ngữ bị nhấn quá mức. Nếu cảm xúc được giữ ổn định thì đây sẽ là TTS tốt nhất tôi từng dùng
Tôi muốn nhắn đội Qwen — hãy tung ra một model vượt khả năng code của Opus 4.5. Tôi thích model, nhưng không thích ban lãnh đạo khép kín và tính chia rẽ chính trị của công ty đó
Lâu rồi mới có công nghệ phát triển đến mức gây rợn người như thế này. Tôi dùng AI TTS từ năm 2018, nhưng đây là model đầu tiên khiến tôi cảm thấy khôi phục kịch phát thanh cũ là điều khả thi. Ví dụ, có vẻ như nó có thể phục dựng các đoạn thoại bị mất do băng hỏng dựa trên ngữ cảnh. Biết đâu có thể hồi sinh lại hàng chục giờ audio của những diễn viên như Bob Bailey
Không biết có ai đã thử chạy trên Mac chưa. Hướng dẫn cài đặt có vẻ giả định NVIDIA GPU (CUDA, FlashAttention), nên tôi không chắc nó có chạy được trên backend PyTorch Metal/MPS hay không
--no-flash-attnmà không cần FlashAttention. Tôi cũng làm vậy trên WindowsVí dụ Age Control cuối cùng được đặt là “giọng Mỹ”, nhưng tai tôi nghe như một người Úc đang bắt chước giọng Mỹ
Có vẻ thực sự phù hợp để làm audiobook. Các AI TTS trước đây vẫn còn thiếu độ tự nhiên
Ngành lồng tiếng giờ đang bắt đầu chín muồi rồi. Một vài demo cho ra chất giọng hoàn thiện hơn hẳn nhiều diễn viên lồng tiếng indie
Tôi lo là một ngày nào đó bà tôi sẽ bị lừa bằng thứ này