3 điểm bởi GN⁺ 2025-06-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • Chatterbox là mô hình TTS (tổng hợp giọng nói) mã nguồn mở mới nhất do Resemble AI công bố
  • Trong các đánh giá so sánh với đối thủ ElevenLabs, mô hình này liên tục cho kết quả được ưa chuộng hơn
  • Tích hợp các tính năng riêng như điều khiển độ cường điệu cảm xúc, cho phép thể hiện giọng nói đa dạng
  • Được huấn luyện với backbone Llama 500 triệu tham số và 500.000 giờ dữ liệu đã tinh lọc
  • Tất cả giọng nói được tạo ra đều được nhúng watermark Perth để hỗ trợ ngăn chặn sử dụng trái phép và giả mạo

Giới thiệu Chatterbox TTS và tầm quan trọng

  • Chatterbox là mô hình TTS (chuyển văn bản thành giọng nói) mã nguồn mở cấp độ production do Resemble AI phát triển
  • Áp dụng giấy phép MIT nên có thể tự do sử dụng; kết quả cũng được công bố cho thấy mô hình này chứng minh chất lượng vượt trội ngay cả khi so với các mô hình thương mại mã nguồn đóng (ví dụ: ElevenLabs)
  • Có thể áp dụng rộng rãi cho sản xuất nội dung như video, meme, game, AI agent, đồng thời là TTS mã nguồn mở đầu tiên cung cấp tính năng điều khiển độ cường điệu cảm xúc
  • Có thể demo và sử dụng thực tế qua ứng dụng Hugging Face Gradio hoặc API riêng; nếu cần quy mô lớn hoặc độ chính xác cao, có API thương mại với độ trễ siêu thấp (dưới 200ms)

Các đặc điểm chính

  • TTS zero-shot tiên tiến: có thể thể hiện nhiều phong cách người nói khác nhau mà không cần dữ liệu bổ sung
  • Backbone Llama 0.5B: áp dụng kiến trúc mô hình ngôn ngữ lớn vào tổng hợp giọng nói
  • Điều chỉnh độ cường điệu/cường độ cảm xúc: cung cấp khả năng kiểm soát chi tiết mức độ cá tính/cảm xúc của từng người nói
  • Alignment-informed inference: phản ánh thông tin căn chỉnh giữa âm vị và âm thanh để tạo ra chất lượng sinh cực kỳ ổn định
  • 0.5M giờ dữ liệu đã tinh lọc: được huấn luyện trên tập dữ liệu giọng nói quy mô lớn/chất lượng cao
  • Watermark tích hợp sẵn: dùng watermark Perth (Perceptual Threshold) của Resemble AI để truy vết sản phẩm tạo sinh và ngăn chặn sử dụng trái phép
  • Script chuyển đổi giọng nói: tích hợp sẵn tính năng voice conversion dễ sử dụng
  • Xác minh hiệu năng: đã có kết quả được đánh giá tốt hơn ElevenLabs

Mẹo sử dụng

  • TTS thông thường/voice agent: với giá trị mặc định (Exaggeration=0.5, cfg_weight=0.5), có thể đạt chất lượng cân bằng trong đa số tình huống
    • Với phong cách người nói nhanh, điều chỉnh cfg_weight về khoảng 0.3 sẽ cho tốc độ tự nhiên hơn
  • Tổng hợp giọng nói giàu cảm xúc/kịch tính: tăng Exaggeration lên từ 0.7 trở lên và giảm cfg_weight để tăng hiệu ứng phát âm kịch tính
    • Cường độ cảm xúc (exaggeration) càng cao thì tốc độ nói càng nhanh; giảm cfg_weight có thể điều chỉnh để phát âm chậm hơn và rõ ràng hơn

Ngôn ngữ hỗ trợ

  • Hiện tại chỉ hỗ trợ tiếng Anh

Mã nguồn mở tham khảo/phụ thuộc

  • Phản ánh nhiều công nghệ mô hình giọng nói/ngôn ngữ hiện đại như Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer

Tích hợp watermark Perth

  • Watermark Perth (Perceptual Threshold): chèn watermark mạng nơ-ron vào mọi giọng nói được tạo ra mà không làm giảm chất lượng âm thanh
  • Watermark vẫn được giữ nguyên sau nén MP3, chỉnh sửa âm thanh, xử lý hậu kỳ
  • Có thể tự động phát hiện với độ chính xác gần 100%, hỗ trợ truy vết bản gốc, chống giả mạo và sử dụng AI có trách nhiệm

Ví dụ trích xuất watermark

  • Có thể dùng script riêng để kiểm tra xem watermark có được nhúng hay không
  • Có thể dùng các gói Python perth, librosa để trích xuất giá trị watermark (0 hoặc 1) từ âm thanh

Cộng đồng

  • Đang vận hành cộng đồng Discord chính thức, bất kỳ ai cũng có thể tham gia và cộng tác

Tuyên bố miễn trừ trách nhiệm

  • Mô hình này cấm sử dụng cho mục đích xấu; prompt chỉ sử dụng dữ liệu đã được công khai trên Internet

1 bình luận

 
GN⁺ 2025-06-12
Ý kiến trên Hacker News
  • Thấy có thông báo rằng mọi tệp âm thanh được tạo bằng Chatterbox đều chứa watermark Perth (Perceptual Threshold) của Resemble AI
    Họ quảng bá đây là imperceptible neural watermarks, nên vẫn tồn tại qua nén MP3, chỉnh sửa âm thanh và nhiều kiểu biến đổi khác, đồng thời đạt độ chính xác phát hiện gần 100%
    Nhưng tôi tự hỏi liệu chỉ cần comment out lệnh gọi hàm apply_watermark trong tts.py là có thể dễ dàng vô hiệu hóa việc chèn watermark hay không
    Tôi nghĩ kiểu watermark này lẽ ra phải được giấu ngay trong bản thân mô hình để không thể bị gỡ bỏ dễ dàng
    Nếu với mô hình mã nguồn mở mà lại thêm watermark như một bước hậu xử lý riêng biệt, thì tôi nghi ngờ không hiểu vì sao còn phải cố chèn watermark làm gì
  • Tôi đoán đây là một dạng động tác CYA (Cover Your Ass, tự bảo vệ mình)
    Giống như Stable Diffusion bản gốc cũng từng có content filter
    Có thể cũng nhằm ngăn dữ liệu huấn luyện bị trộn lẫn
  • Thậm chí trong parser còn có cả cờ --no-watermark
    Cuối cùng có vẻ họ đưa nó vào như một “tính năng” cho những người sẽ nhúng nó vào sản phẩm lớn hơn
  • Những công ty không phải OpenAI, Google hay ElevenLabs sẽ trở nên hoàn toàn không còn liên quan nếu không tích cực open-source
    Các vị trí dẫn đầu thị trường TTS đã quá rõ ràng, và những bên như Resemble, PlayHT chỉ có thể giành được chút thị phần nếu công khai trọng số và mã nguồn cho cộng đồng phát triển
    Watermarking mang tính CYA để đối phó chỉ trích về việc lạm dụng trong truyền thông
    Nếu không có thứ kiểu này, truyền thông và phe phản AI như 404Media sẽ nêu vấn đề lạm dụng
    Công khai source, weights, đồng thời cung cấp API/tùy chọn fine-tuning riêng là hướng đi đúng
    Tham khảo thêm bài của 404Media
  • Trang demo ở đây
    Nếu audio demo không phải là ví dụ được chọn lọc quá kỹ thì tôi nghĩ đây là một bản phát hành thật sự rất tốt
    Tôi vẫn nói đi nói lại điều này, nhưng trong thực tế, qua nhiều thử nghiệm tôi luôn cảm thấy giới hạn của voice AI nằm ở nhận dạng giọng nói (transcription) hơn là chất lượng TTS
    Nếu gần đây chưa có thay đổi lớn thì giới hạn đó vẫn còn nguyên
  • Theo trải nghiệm gần đây của tôi, LLM đã đủ tốt để đọc và tận dụng cả các lỗi transcription
    Tôi vẫn chưa thử đưa cho LLM nhiều phiên bản transcription hay confidence level, nhưng kỳ vọng là nó sẽ tận dụng được khá tốt
  • Tôi đã dùng Speechmatics và thấy chất lượng transcription khá ổn
  • Khi tự thử bằng demo trên Huggingface, phần biểu đạt cảm xúc không tự nhiên đến mức như trên trang demo, nên cũng có cảm giác đây là ví dụ đã được chọn lọc
  • Tôi tự hỏi liệu có thể vượt qua vấn đề transcription bằng dữ liệu tổng hợp hay không
  • Tôi rất thích việc họ đưa thẳng cả câu chửi vào demo
    Việc câu đó còn lấy từ Pulp Fiction cũng khá thú vị
    Các demo trước giờ lúc nào cũng quá nhạt nhẽo và an toàn đến phát chán
    Trong cộng đồng TTS indie người ta hay dùng Navy Seals copypasta, nên việc một công ty dịch vụ như Resemble cho những câu kiểu này vào là khá mới mẻ
    Copypasta wiki, ví dụ về Navy Seal copypasta
  • Có thể dùng thử miễn phí tại đây
  • Tôi đã thử và thấy khá vui
    Khi đưa accent Australia của tôi vào thì đầu ra lại thành kiểu Anh rất chuẩn, thậm chí là RP cực kỳ mềm
    Nghe rất tự nhiên, nhưng chắc chắn không phải cảm giác nó đang tái hiện đúng ngữ điệu của tôi
    Với ứng dụng thực tế, ở nhiều trường hợp điều quan trọng là giọng nói rõ ràng và tự nhiên, nên cho những mục đích đó thì nó hoàn toàn phù hợp
  • Đáng tiếc là mã huấn luyện và fine-tuning chưa được công khai, nên chưa đạt mức “mở hoàn toàn” như Flux hay Stable Diffusion
    Trong nhóm mô hình “open” thì những lựa chọn tốt hơn gồm
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      Trên thực tế chỉ Seed-VC có mã huấn luyện/fine-tuning, nhưng cả ba đều cho hiệu năng zero-shot tốt hơn Chatterbox
      Đặc biệt MegaTTS3 của ByteDance thì ngoài ElevenLabs ra gần như không công ty nào theo kịp
      ByteDance áp đảo cả về tiền, nhân lực lẫn dữ liệu
      Nếu mục tiêu của bạn là tái tạo giọng nói zero-shot mà không cần fine-tuning, thì những mô hình này là lựa chọn tốt hơn
  • Cũng đã có ví dụ mã nguồn mở về triển khai TTS API sẵn sàng cho môi trường production
    Kèm theo cả link mô hình có thể triển khai
  • Có hướng dẫn mã suy luận mẫu và ví dụ voice cloning
    Họ cũng cho biết vẫn đang làm hỗ trợ streaming
  • Tôi nghĩ nó hoạt động cực tốt với các accent rất phổ biến
    Nhưng ngay cả với những accent tưởng là khá phổ biến, nó vẫn lẫn accent khác vào khá rõ, ví dụ bản ghi giọng Scotland nhưng lại ra âm hưởng Australia
    Accent vùng Yorkshire cũng bắt sai
  • Khi tôi đưa accent Scotland vào thì ngay cả accent Australia của tôi cũng bị biến thành RP kiểu Anh
  • Có ý kiến cho rằng vấn đề nằm ở đặc tính accent Scotland hơn là ở mô hình
  • Nghe như một diễn viên đang bắt chước accent Anh
  • Có người hỏi về cấu hình phần cứng tối thiểu, liệu nó có chạy được ở mức cấu hình thấp không
  • Theo trang issue trên GitHub thì hiện tại việc tối ưu hóa vẫn chưa tốt
    Vì thế ở trạng thái mặc định nó đòi hỏi phần cứng consumer khá mạnh
    Tuy vậy tôi nghĩ sau này vẫn còn nhiều dư địa để tối ưu thêm
    Link issue
  • Theo issue này thì cần 6~7GB VRAM
    Nếu mô hình đủ đáng giá thì có lẽ sẽ có ai đó tìm ra cách chạy với ít VRAM hơn
    Thực tế tôi đã chạy trên Nvidia 2060 cũ và mức VRAM đỉnh khoảng 5GB
  • Đây hoàn toàn không phải câu hỏi nhỏ nhặt, mà ngược lại còn là câu hỏi hay nhất
    Có thể dùng miễn phí, nhưng chi phí thực tế khiến việc self-hosting trở nên không còn ý nghĩa
  • Tôi cũng từng đi tìm câu trả lời cho đúng thắc mắc này
    Tôi muốn biết nó có cần GPU đắt tiền hay có thể chạy trên chiếc laptop 12 năm tuổi hay không
  • Tôi định chia sẻ trải nghiệm chạy trên CPU cũ, nhưng sau hơn 30 phút vẫn chỉ lặp đi lặp lại chuyện cài đặt và lỗi
    Các vấn đề gặp phải gồm:
    • Không hỗ trợ Python 3.13, phải dùng uv để dựng lại môi trường ảo 3.12
    • Không nhận numpy 1.26.4, và uv pip chỉ tìm trong kho PyTorch
    • Phiên bản pip install chatterbox-tts bị lỗi ở chế độ CPU only
    • Bản main mặc định yêu cầu protobuf-compiler trên Debian
    • Lỗi CMake không rõ nguyên nhân, than phiền thiếu Python dev headers
      Cảm giác kiệt sức vì cứ phải lặp lại kiểu vật lộn này mỗi lần chạy project Python của người khác
  • Phần biểu đạt cảm xúc quá đà khá thú vị, nhưng tôi vẫn chưa tìm được dịch vụ nào như ElevenLabs cho phép “nặn” ra đúng màu giọng mong muốn chỉ bằng mô tả văn bản
    SparkTTS có cung cấp thêm vài tham số, và trong mã GitHub cũng có vẻ cho thấy khả năng điều khiển cảm xúc tinh vi hơn
    Với trường hợp của tôi, tôi từng cố tình đẩy mạnh phần prosody và tonality trong văn bản để ép một số mô hình tiến gần hơn tới concept mình muốn
    Dù vậy, so với việc thiết kế cảm xúc trực quan trên ElevenLabs thì vẫn vất vả hơn nhiều
  • Cảm nhận sau khi thử demo trực tiếp với một đoạn giọng nói của chính tôi
    • Đầu ra có phần nào bắt được chất giọng của tôi, nhưng không giống đến mức kinh ngạc
      Dù vậy, chỉ với một mẫu rất ngắn mà đạt được đến thế này cũng đã khá ấn tượng
    • Chỉ cần tăng CFG/pace lên một chút là audio lập tức hỏng tới mức khó hiểu
    • Accent của tôi là Australia, nhưng đầu ra thì lúc ra kiểu Anh, lúc lại kiểu Mỹ
    • Phần cảm xúc cường điệu thì vui, nhưng mỗi lần lại ra một cảm xúc khác nhau
  • Tôi tự hỏi những mô hình TTS như thế này có thể đọc cả một cuốn sách một cách thuyết phục hay không, hay là chỉ qua vài đoạn là độ nhất quán giọng nói đã vỡ
  • Hầu hết hệ thống TTS đều xuống chất lượng với văn bản dài, nên thực tế tốt hơn là chia theo từng đoạn để đọc rồi ghép lại
    Ngoài ra nếu mẫu wave one-shot lẫn tạp âm, Chatterbox đôi khi còn tặng thêm vài âm thanh khó hiểu ở cuối
    Đặc biệt khi đọc những thứ như Thần khúc của Dante thì đúng kiểu trải nghiệm “âm thanh địa ngục”
  • Khi nào chất lượng đủ tốt, có lẽ Audible sẽ tràn ngập audiobook AI-narration
    (Chỉ không rõ Amazon có công bố chuyện đó hay không)
  • Tôi đã tự tạo một audiobook từ một cuốn sách epub và có trải nghiệm cho kết quả không tệ với công cụ này
    công cụ chuyển audiobook audiblez
  • Tôi đang tư vấn cho một công ty trong lĩnh vực này, và có thể khẳng định rằng với công nghệ hiện nay thì chuyện đọc sách hoàn toàn không thành vấn đề
  • Cách đây 1 năm tôi từng ghép một audiobook trị liệu của Carl Rogers theo phong cách Attenbrough cho bạn bè nghe chơi, và ngay khi đó chất lượng đã khá xuất sắc
    Sau thêm 1 năm nữa, tôi tin chắc là mọi thứ đã còn tốt hơn nữa