Qwen3-TTS family được phát hành mã nguồn mở: cung cấp thiết kế giọng nói, sao chép và tạo giọng

(qwen.ai)

31 điểm bởi GN⁺ 2026-01-23 | 3 bình luận | Chia sẻ qua WhatsApp

Qwen3-TTS là dòng mô hình tạo giọng nói đa ngôn ngữ hỗ trợ sao chép giọng nói, thiết kế giọng nói, tạo giọng người chất lượng cực cao và điều khiển bằng ngôn ngữ tự nhiên
Hỗ trợ 10 ngôn ngữ chính và nhiều phương ngữ như tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn, đồng thời cung cấp hai kích thước mô hình 1.7B và 0.6B
Thông qua encoder Qwen3-TTS-Tokenizer-12Hz do hãng tự phát triển, hệ thống nén tín hiệu âm thanh hiệu quả và bảo toàn trọn vẹn thông tin phi ngôn ngữ cùng môi trường âm học
Với kiến trúc streaming Dual-Track, sau khi nhập 1 ký tự có thể xuất ngay gói âm thanh đầu tiên, đạt hiệu năng tổng hợp thời gian thực với độ trễ 97ms
Việc phát hành mã nguồn mở giúp nhà phát triển và doanh nghiệp trực tiếp tận dụng công nghệ tạo giọng chất lượng cao

Tổng quan về Qwen3-TTS

Qwen3-TTS là dòng mô hình tạo giọng nói hiệu năng cao do Qwen phát triển, tích hợp các khả năng thiết kế, sao chép, tạo và điều khiển giọng nói
- Có thể điều khiển màu giọng, cảm xúc, ngữ điệu... bằng lệnh ngôn ngữ tự nhiên
- Có thể truy cập qua Qwen API và GitHub
Dựa trên encoder đa codebook Qwen3-TTS-Tokenizer-12Hz, mô hình hiện thực hóa việc khôi phục giọng nói tốc độ cao, độ trung thực cao và nén hiệu quả
Hỗ trợ xuất giọng nói thời gian thực ở cấp ký tự nhờ streaming hai chiều Dual-Track

Cấu hình mô hình

Toàn bộ dòng mô hình được cung cấp với hai kích thước: 1.7B và 0.6B
- 1.7B: cung cấp hiệu năng cao nhất và khả năng điều khiển tinh vi
- 0.6B: cân bằng giữa hiệu năng và hiệu quả
Cả hai mô hình đều hỗ trợ tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Pháp, tiếng Nga, tiếng Bồ Đào Nha, tiếng Tây Ban Nha và tiếng Ý
Có thể sao chép giọng nhanh chỉ với 3 giây đầu vào giọng nói, đồng thời dùng được cho fine-tuning (FT)

Các đặc điểm kỹ thuật chính

Khả năng biểu đạt giọng nói hiệu năng cao
- Qwen3-TTS-Tokenizer-12Hz thực hiện mô hình hóa và nén ngữ nghĩa bậc cao của tín hiệu âm thanh
- Bảo toàn thông tin phi ngôn ngữ và âm thanh môi trường, hỗ trợ khôi phục tốc độ cao với kiến trúc non-DiT gọn nhẹ
Kiến trúc đa codebook end-to-end
- Loại bỏ nút thắt thông tin và vấn đề tích lũy lỗi của cách tiếp cận LM+DiT truyền thống
- Nâng cao tính tổng quát của mô hình, hiệu quả tạo sinh và giới hạn hiệu năng
Tổng hợp streaming siêu độ trễ thấp
- Kiến trúc lai Dual-Track hỗ trợ đồng thời streaming và non-streaming
- Xuất âm thanh đầu tiên sau khi nhập 1 ký tự, đạt độ trễ 97ms
Hiểu văn bản thông minh và điều khiển giọng nói
- Dựa trên lệnh ngôn ngữ tự nhiên để điều khiển các thuộc tính đa chiều như màu giọng, cảm xúc, ngữ điệu
- Tự động điều chỉnh tông và nhịp điệu theo ngữ nghĩa văn bản

Đánh giá hiệu năng mô hình

Thiết kế giọng nói: trên benchmark InstructTTS-Eval, đạt khả năng thực hiện chỉ thị và biểu đạt cao hơn MiniMax-Voice-Design
Điều khiển giọng nói: trong tổng quát hóa đa ngôn ngữ đơn người nói, ghi nhận WER 2.34% và điểm điều khiển phong cách 75.4%
- Ngay cả khi tổng hợp liên tục 10 phút, vẫn duy trì WER tiếng Trung 2.36% và tiếng Anh 2.81%
Sao chép giọng nói: trong Seed-tts-eval, ổn định hơn MiniMax và SeedTTS
- Trung bình trên 10 ngôn ngữ đạt WER 1.835%, độ tương đồng người nói 0.789, vượt hiệu năng của CosyVoice3

Hiệu năng Tokenizer

Đạt SOTA trên bộ LibriSpeech test-clean
- PESQ: băng rộng 3.21, băng hẹp 3.68
- STOI: 0.96, UTMOS: 4.16
- Với độ tương đồng người nói 0.95, gần như bảo toàn thông tin người nói ở mức không mất mát

Thiết kế giọng nói và mẫu thử

Có thể tạo màu giọng tùy biến dựa trên mô tả bằng ngôn ngữ tự nhiên
- Điều khiển chi tiết các thuộc tính như giới tính, độ tuổi, cảm xúc, ngữ điệu
- Ví dụ: giọng nam mang tính mệnh lệnh, giọng nữ giàu cảm xúc, màu giọng theo độ tuổi...
Tính năng Timbre Reuse cho phép lưu và tái sử dụng màu giọng đã tạo
- Có thể ứng dụng cho hội thoại nhiều người nói hoặc lời dẫn dài

CustomVoice và điều khiển màu giọng

Ngay cả sau khi fine-tuning theo từng người nói, vẫn có thể duy trì màu giọng mục tiêu và phát âm đa ngôn ngữ
Hỗ trợ cả điều khiển một thuộc tính và nhiều thuộc tính cùng lúc
- Ví dụ: điều chỉnh cảm xúc tinh vi như buồn bã, tức giận, thì thầm, cách nói chậm...
Cung cấp 9 bộ màu giọng công khai
- Bao gồm tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn và các phương ngữ
- Ví dụ: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) v.v.

Voice Clone và sao chép đa ngôn ngữ

Thực hiện sao chép giọng tốc độ cao chỉ với 3 giây đầu vào giọng nói
- Ngoài sao chép tiếng Trung và tiếng Anh, còn hỗ trợ sao chép xuyên ngôn ngữ
- Ví dụ: có thể phát âm đa ngôn ngữ như tiếng Nhật, tiếng Hàn
Đảm bảo độ bền vững trước nhiễu văn bản
- Ngay cả câu chứa ký hiệu phức tạp, pinyin và ký tự đặc biệt cũng được phát âm chính xác

Khôi phục âm thanh dựa trên Tokenizer

Có thể khôi phục nhiều yếu tố âm thanh như phương ngữ, hát, âm thanh phi ngôn ngữ, tiếng nền
Chứng minh chất lượng tái tạo có độ trung thực cao so với bản gốc

3 bình luận

sudosudo 2026-01-24

Ồ, chạy được cả trên laptop nữa.

xguru 2026-01-23

Dạo này tôi cũng dùng rất nhiều mô hình dựa trên Qwen ở môi trường local.
Ban đầu chỉ nghĩ chắc vì là mô hình của Alibaba thôi, nhưng thật sự ấn tượng khi họ liên tục cải tiến và mở rộng nó.

GN⁺ 2026-01-23

Ý kiến trên Hacker News

Đã thử chạy trên macOS bằng mlx-audio. Làm được nhờ tweet của Prince Canuma
Script tôi dùng ở đây
Chạy bằng uv thì ban đầu sẽ tải model 4.5GB. Ví dụ lệnh như sau
uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
- Quá đỉnh. Thêm một chiến thắng nữa cho uv
Nếu muốn tự thử voice cloning, có thể làm trên demo Hugging Face
Vào tab "Voice Clone", dán văn bản mẫu, dùng mic ghi âm giọng của mình, rồi nhập một văn bản khác để tạo ra phiên bản được đọc bằng chính giọng của bạn
Mẫu âm thanh tôi tạo được chia sẻ ở đây
- Thành thật mà nói thì thấy hơi đáng sợ. Kết hợp với z-image-turbo thì giờ phải giả định mọi thứ trên màn hình đều có thể là giả. Chúng ta đã bước vào thời đại không thể tin vào bất cứ thứ gì nếu không có xác minh bằng mật mã
- Demo HF bị quá tải nhưng chạy local thì ổn. Model 1.7B bắt được tông giọng của người nói khá tốt nhưng thiếu biến thiên ngữ điệu, nên nghe khá đơn điệu. Có lẽ vì demo không lộ ra tính năng điều chỉnh độ biểu cảm. Dù vậy, khả năng xử lý nhiễu vẫn tốt hơn 0.6B rất nhiều. Không có FlashAttention thì trên GPU 5090 chậm cỡ 0.3x thời gian thực, nhưng chất lượng rất ấn tượng
- Công nghệ đáng kinh ngạc. Giọng đã được sao chép của tôi nghe thật sự giống tôi. Có lẽ sẽ có rất nhiều mục đích tốt lẫn xấu — từ việc để người bà đã mất đọc truyện cho cháu nghe, cho tới lừa đảo hay tự động sản xuất podcast
- Chỉ với bản ghi đã đăng thì khó đánh giá hiệu năng sao chép. Cần phải có cả mẫu giọng gốc để đối chiếu
- Tôi đã thử vui và thấy khá hay. Chỉ cần ghi âm giọng mình vài phút, biết đâu sau này có thể tạo audiobook do chính tôi đọc cho tôi nghe
Một model khá thú vị. Tôi đã chạy model 0.6B trên GPU 1080, có thể sinh theo từng đoạn 200 ký tự mà không bị OOM. Tôi thử làm audiobook Đạo Đức Kinh, nhưng kết quả mỗi lần một khác, giống như vòng quay ma thuật vậy. Có đoạn thì rõ ràng, có đoạn lại cười hoặc rên, cảm xúc rất thất thường. Giọng Ryan ổn định nhất, còn Eric thì nghe như giọng Hoa ngữ bị nhấn quá mức. Nếu cảm xúc được giữ ổn định thì đây sẽ là TTS tốt nhất tôi từng dùng
- Bạn đã thử chỉ định cảm xúc trực tiếp chưa? Nếu để trống thì có thể nó đang đặt thành cảm xúc ngẫu nhiên (rng)
- Tôi tò mò về RTF (tỷ lệ thời gian thực) trên 1080. Đang kiểm tra xem model 0.6B có thể suy luận thời gian thực trên thiết bị edge hay không
Tôi muốn nhắn đội Qwen — hãy tung ra một model vượt khả năng code của Opus 4.5. Tôi thích model, nhưng không thích ban lãnh đạo khép kín và tính chia rẽ chính trị của công ty đó
- Có khi đây lại chính là bình luận họ đang chờ
- Tôi cũng gặp vấn đề tương tự (tôi là người Đan Mạch). Tôi đã test với Open Code và Minimax m2.1 (10 USD/tháng), chạy khá ổn. GLM 4.7 cũng rất tốt. So sánh chi tiết có trong bài này. Không nhất thiết phải gửi tiền cho một công ty mà bạn ghét
- Tôi tò mò “chia rẽ về mặt chính trị” nghĩa là gì
- Tôi đang có kết quả tốt với GLM 4.7. Tôi chạy hai tài khoản max 24/7 và dùng Claude cho một phần review code. Nếu chi phí là vấn đề thì GLM 4.7 là lựa chọn tốt
- Muốn hỏi là bạn đã thử GLM 4.7 mới ra chưa
Lâu rồi mới có công nghệ phát triển đến mức gây rợn người như thế này. Tôi dùng AI TTS từ năm 2018, nhưng đây là model đầu tiên khiến tôi cảm thấy khôi phục kịch phát thanh cũ là điều khả thi. Ví dụ, có vẻ như nó có thể phục dựng các đoạn thoại bị mất do băng hỏng dựa trên ngữ cảnh. Biết đâu có thể hồi sinh lại hàng chục giờ audio của những diễn viên như Bob Bailey
- Những mẫu tôi nghe được có cảm giác như lồng tiếng anime phong cách Miyazaki. Tò mò không biết có được huấn luyện bằng dữ liệu kiểu đó không
- Tôi cũng đang dự định làm một dự án khôi phục các tập radio “Have Gun - Will Travel”. Nếu có thể phục dựng những đoạn khó nghe do băng hỏng hoặc nhiễu từ hiệu ứng âm thanh thì thật tuyệt vời. Dĩ nhiên khả năng bị lạm dụng cũng rất lớn
Không biết có ai đã thử chạy trên Mac chưa. Hướng dẫn cài đặt có vẻ giả định NVIDIA GPU (CUDA, FlashAttention), nên tôi không chắc nó có chạy được trên backend PyTorch Metal/MPS hay không
- Có thể chạy với tùy chọn --no-flash-attn mà không cần FlashAttention. Tôi cũng làm vậy trên Windows
- Khuyên bạn dùng modal để thuê môi trường Metal
- Hiện tại không được vì phụ thuộc vào FlashAttention. Mong có ai đó port sang Metal
Ví dụ Age Control cuối cùng được đặt là “giọng Mỹ”, nhưng tai tôi nghe như một người Úc đang bắt chước giọng Mỹ
Có vẻ thực sự phù hợp để làm audiobook. Các AI TTS trước đây vẫn còn thiếu độ tự nhiên
Ngành lồng tiếng giờ đang bắt đầu chín muồi rồi. Một vài demo cho ra chất giọng hoàn thiện hơn hẳn nhiều diễn viên lồng tiếng indie
Tôi lo là một ngày nào đó bà tôi sẽ bị lừa bằng thứ này
- Cho đến giờ thì đó có vẻ là ca sử dụng chính
- Nhưng các bà ngày nay thuộc thế hệ QVC và thầy bói qua điện thoại, nên có khi giờ họ không còn dễ bị lừa bởi mấy chuyện kiểu này nữa