- Chatterbox là mô hình TTS (tổng hợp giọng nói) mã nguồn mở mới nhất do Resemble AI công bố
- Trong các đánh giá so sánh với đối thủ ElevenLabs, mô hình này liên tục cho kết quả được ưa chuộng hơn
- Tích hợp các tính năng riêng như điều khiển độ cường điệu cảm xúc, cho phép thể hiện giọng nói đa dạng
- Được huấn luyện với backbone Llama 500 triệu tham số và 500.000 giờ dữ liệu đã tinh lọc
- Tất cả giọng nói được tạo ra đều được nhúng watermark Perth để hỗ trợ ngăn chặn sử dụng trái phép và giả mạo
Giới thiệu Chatterbox TTS và tầm quan trọng
- Chatterbox là mô hình TTS (chuyển văn bản thành giọng nói) mã nguồn mở cấp độ production do Resemble AI phát triển
- Áp dụng giấy phép MIT nên có thể tự do sử dụng; kết quả cũng được công bố cho thấy mô hình này chứng minh chất lượng vượt trội ngay cả khi so với các mô hình thương mại mã nguồn đóng (ví dụ: ElevenLabs)
- Có thể áp dụng rộng rãi cho sản xuất nội dung như video, meme, game, AI agent, đồng thời là TTS mã nguồn mở đầu tiên cung cấp tính năng điều khiển độ cường điệu cảm xúc
- Có thể demo và sử dụng thực tế qua ứng dụng Hugging Face Gradio hoặc API riêng; nếu cần quy mô lớn hoặc độ chính xác cao, có API thương mại với độ trễ siêu thấp (dưới 200ms)
Các đặc điểm chính
- TTS zero-shot tiên tiến: có thể thể hiện nhiều phong cách người nói khác nhau mà không cần dữ liệu bổ sung
- Backbone Llama 0.5B: áp dụng kiến trúc mô hình ngôn ngữ lớn vào tổng hợp giọng nói
- Điều chỉnh độ cường điệu/cường độ cảm xúc: cung cấp khả năng kiểm soát chi tiết mức độ cá tính/cảm xúc của từng người nói
- Alignment-informed inference: phản ánh thông tin căn chỉnh giữa âm vị và âm thanh để tạo ra chất lượng sinh cực kỳ ổn định
- 0.5M giờ dữ liệu đã tinh lọc: được huấn luyện trên tập dữ liệu giọng nói quy mô lớn/chất lượng cao
- Watermark tích hợp sẵn: dùng watermark Perth (Perceptual Threshold) của Resemble AI để truy vết sản phẩm tạo sinh và ngăn chặn sử dụng trái phép
- Script chuyển đổi giọng nói: tích hợp sẵn tính năng voice conversion dễ sử dụng
- Xác minh hiệu năng: đã có kết quả được đánh giá tốt hơn ElevenLabs
Mẹo sử dụng
- TTS thông thường/voice agent: với giá trị mặc định (Exaggeration=0.5, cfg_weight=0.5), có thể đạt chất lượng cân bằng trong đa số tình huống
- Với phong cách người nói nhanh, điều chỉnh cfg_weight về khoảng 0.3 sẽ cho tốc độ tự nhiên hơn
- Tổng hợp giọng nói giàu cảm xúc/kịch tính: tăng Exaggeration lên từ 0.7 trở lên và giảm cfg_weight để tăng hiệu ứng phát âm kịch tính
- Cường độ cảm xúc (exaggeration) càng cao thì tốc độ nói càng nhanh; giảm cfg_weight có thể điều chỉnh để phát âm chậm hơn và rõ ràng hơn
Ngôn ngữ hỗ trợ
- Hiện tại chỉ hỗ trợ tiếng Anh
Mã nguồn mở tham khảo/phụ thuộc
- Phản ánh nhiều công nghệ mô hình giọng nói/ngôn ngữ hiện đại như Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer
Tích hợp watermark Perth
- Watermark Perth (Perceptual Threshold): chèn watermark mạng nơ-ron vào mọi giọng nói được tạo ra mà không làm giảm chất lượng âm thanh
- Watermark vẫn được giữ nguyên sau nén MP3, chỉnh sửa âm thanh, xử lý hậu kỳ
- Có thể tự động phát hiện với độ chính xác gần 100%, hỗ trợ truy vết bản gốc, chống giả mạo và sử dụng AI có trách nhiệm
Ví dụ trích xuất watermark
- Có thể dùng script riêng để kiểm tra xem watermark có được nhúng hay không
- Có thể dùng các gói Python perth, librosa để trích xuất giá trị watermark (0 hoặc 1) từ âm thanh
Cộng đồng
- Đang vận hành cộng đồng Discord chính thức, bất kỳ ai cũng có thể tham gia và cộng tác
Tuyên bố miễn trừ trách nhiệm
- Mô hình này cấm sử dụng cho mục đích xấu; prompt chỉ sử dụng dữ liệu đã được công khai trên Internet
1 bình luận
Ý kiến trên Hacker News
Họ quảng bá đây là
imperceptible neural watermarks, nên vẫn tồn tại qua nén MP3, chỉnh sửa âm thanh và nhiều kiểu biến đổi khác, đồng thời đạt độ chính xác phát hiện gần 100%Nhưng tôi tự hỏi liệu chỉ cần comment out lệnh gọi hàm
apply_watermarktrongtts.pylà có thể dễ dàng vô hiệu hóa việc chèn watermark hay khôngTôi nghĩ kiểu watermark này lẽ ra phải được giấu ngay trong bản thân mô hình để không thể bị gỡ bỏ dễ dàng
Nếu với mô hình mã nguồn mở mà lại thêm watermark như một bước hậu xử lý riêng biệt, thì tôi nghi ngờ không hiểu vì sao còn phải cố chèn watermark làm gì
Giống như Stable Diffusion bản gốc cũng từng có content filter
Có thể cũng nhằm ngăn dữ liệu huấn luyện bị trộn lẫn
--no-watermarkCuối cùng có vẻ họ đưa nó vào như một “tính năng” cho những người sẽ nhúng nó vào sản phẩm lớn hơn
Các vị trí dẫn đầu thị trường TTS đã quá rõ ràng, và những bên như Resemble, PlayHT chỉ có thể giành được chút thị phần nếu công khai trọng số và mã nguồn cho cộng đồng phát triển
Watermarking mang tính CYA để đối phó chỉ trích về việc lạm dụng trong truyền thông
Nếu không có thứ kiểu này, truyền thông và phe phản AI như 404Media sẽ nêu vấn đề lạm dụng
Công khai source, weights, đồng thời cung cấp API/tùy chọn fine-tuning riêng là hướng đi đúng
Tham khảo thêm bài của 404Media
Nếu audio demo không phải là ví dụ được chọn lọc quá kỹ thì tôi nghĩ đây là một bản phát hành thật sự rất tốt
Tôi vẫn nói đi nói lại điều này, nhưng trong thực tế, qua nhiều thử nghiệm tôi luôn cảm thấy giới hạn của voice AI nằm ở nhận dạng giọng nói (transcription) hơn là chất lượng TTS
Nếu gần đây chưa có thay đổi lớn thì giới hạn đó vẫn còn nguyên
Tôi vẫn chưa thử đưa cho LLM nhiều phiên bản transcription hay confidence level, nhưng kỳ vọng là nó sẽ tận dụng được khá tốt
Việc câu đó còn lấy từ Pulp Fiction cũng khá thú vị
Các demo trước giờ lúc nào cũng quá nhạt nhẽo và an toàn đến phát chán
Trong cộng đồng TTS indie người ta hay dùng Navy Seals copypasta, nên việc một công ty dịch vụ như Resemble cho những câu kiểu này vào là khá mới mẻ
Copypasta wiki, ví dụ về Navy Seal copypasta
Khi đưa accent Australia của tôi vào thì đầu ra lại thành kiểu Anh rất chuẩn, thậm chí là RP cực kỳ mềm
Nghe rất tự nhiên, nhưng chắc chắn không phải cảm giác nó đang tái hiện đúng ngữ điệu của tôi
Với ứng dụng thực tế, ở nhiều trường hợp điều quan trọng là giọng nói rõ ràng và tự nhiên, nên cho những mục đích đó thì nó hoàn toàn phù hợp
Trong nhóm mô hình “open” thì những lựa chọn tốt hơn gồm
Trên thực tế chỉ Seed-VC có mã huấn luyện/fine-tuning, nhưng cả ba đều cho hiệu năng zero-shot tốt hơn Chatterbox
Đặc biệt MegaTTS3 của ByteDance thì ngoài ElevenLabs ra gần như không công ty nào theo kịp
ByteDance áp đảo cả về tiền, nhân lực lẫn dữ liệu
Nếu mục tiêu của bạn là tái tạo giọng nói zero-shot mà không cần fine-tuning, thì những mô hình này là lựa chọn tốt hơn
Kèm theo cả link mô hình có thể triển khai
Họ cũng cho biết vẫn đang làm hỗ trợ streaming
Nhưng ngay cả với những accent tưởng là khá phổ biến, nó vẫn lẫn accent khác vào khá rõ, ví dụ bản ghi giọng Scotland nhưng lại ra âm hưởng Australia
Accent vùng Yorkshire cũng bắt sai
Vì thế ở trạng thái mặc định nó đòi hỏi phần cứng consumer khá mạnh
Tuy vậy tôi nghĩ sau này vẫn còn nhiều dư địa để tối ưu thêm
Link issue
Nếu mô hình đủ đáng giá thì có lẽ sẽ có ai đó tìm ra cách chạy với ít VRAM hơn
Thực tế tôi đã chạy trên Nvidia 2060 cũ và mức VRAM đỉnh khoảng 5GB
Có thể dùng miễn phí, nhưng chi phí thực tế khiến việc self-hosting trở nên không còn ý nghĩa
Tôi muốn biết nó có cần GPU đắt tiền hay có thể chạy trên chiếc laptop 12 năm tuổi hay không
Các vấn đề gặp phải gồm:
uvđể dựng lại môi trường ảo 3.12numpy 1.26.4, vàuv pipchỉ tìm trong kho PyTorchpip install chatterbox-ttsbị lỗi ở chế độ CPU onlymainmặc định yêu cầuprotobuf-compilertrên DebianCảm giác kiệt sức vì cứ phải lặp lại kiểu vật lộn này mỗi lần chạy project Python của người khác
SparkTTS có cung cấp thêm vài tham số, và trong mã GitHub cũng có vẻ cho thấy khả năng điều khiển cảm xúc tinh vi hơn
Với trường hợp của tôi, tôi từng cố tình đẩy mạnh phần prosody và tonality trong văn bản để ép một số mô hình tiến gần hơn tới concept mình muốn
Dù vậy, so với việc thiết kế cảm xúc trực quan trên ElevenLabs thì vẫn vất vả hơn nhiều
Dù vậy, chỉ với một mẫu rất ngắn mà đạt được đến thế này cũng đã khá ấn tượng
Ngoài ra nếu mẫu wave one-shot lẫn tạp âm, Chatterbox đôi khi còn tặng thêm vài âm thanh khó hiểu ở cuối
Đặc biệt khi đọc những thứ như Thần khúc của Dante thì đúng kiểu trải nghiệm “âm thanh địa ngục”
(Chỉ không rõ Amazon có công bố chuyện đó hay không)
công cụ chuyển audiobook audiblez
Sau thêm 1 năm nữa, tôi tin chắc là mọi thứ đã còn tốt hơn nữa