- Mô hình TTS mới được thiết kế để tạo ra đối thoại giọng nói tự nhiên nhiều người nói trong thời lượng dài từ văn bản
- Được xây dựng để giải quyết các vấn đề về khả năng mở rộng, tính nhất quán của người nói và chuyển lượt tự nhiên vốn là giới hạn của các hệ thống trước đây
- Có thể tổng hợp âm thanh dài tối đa 90 phút với tối đa 4 người nói cùng lúc, vượt qua giới hạn 1–2 người nói của các mô hình trước đó
- Trọng tâm là sử dụng bộ mã hóa token giọng nói liên tục với tốc độ khung hình siêu thấp 7.5Hz (Acoustic/Semantic) để xử lý hiệu quả các chuỗi âm thanh dài mà vẫn giữ được chất lượng âm thanh
- Sử dụng phương pháp Next-Token Diffusion để mô hình hóa dữ liệu liên tục một cách hiệu quả, đồng thời giới thiệu bộ mã hóa token giọng nói liên tục mới có tỷ lệ nén cao gấp 80 lần so với Encodec hiện có
Giới thiệu
- Gần đây, công nghệ TTS đã thành công trong việc tổng hợp các phát ngôn ngắn của một người nói với chất lượng cao, nhưng tổng hợp hội thoại nhiều người nói trong thời lượng dài vẫn là một thách thức
- Các phương pháp hiện có chỉ đơn giản nối các phát ngôn lại với nhau nên tạo ra chuyển tiếp thiếu tự nhiên
- Khó tạo ra việc luân phiên lượt nói tự nhiên và sinh nội dung có nhận thức ngữ cảnh
- Mục tiêu: hỗ trợ tổng hợp giọng nói hội thoại dài, nhiều người nói như podcast
- Để giải quyết điều này, VibeVoice kết hợp bộ mã hóa token giọng nói với tốc độ khung hình siêu thấp (7.5Hz) và kiến trúc Diffusion dựa trên LLM
- Nhờ đó có thể tổng hợp ổn định âm thanh nhiều người nói dài tối đa 90 phút
Đổi mới kỹ thuật
- Bộ mã hóa token giọng nói liên tục (7.5Hz):
- Sử dụng song song bộ mã hóa token Acoustic + Semantic
- Vừa đảm bảo hiệu quả xử lý chuỗi dài, vừa duy trì độ trung thực của âm thanh
- Khung Next-token diffusion:
- LLM hiểu ngữ cảnh văn bản và dòng chảy hội thoại
- Diffusion head tạo ra chi tiết âm học độ phân giải cao
- Kết quả: tổng hợp giọng nói tự nhiên và giống người hơn nhiều so với trước đây
Hiệu năng
- Có thể tổng hợp giọng nói dài tối đa 90 phút
- Hỗ trợ tối đa 4 người nói (vượt qua giới hạn 1–2 người nói của các mô hình trước đây)
- Cung cấp giọng nói giàu biểu cảm và nhất quán trong nhiều tình huống hội thoại khác nhau
Kết quả thực nghiệm
Tổng hợp hội thoại dài (Podcast)
- Đánh giá trên bộ dữ liệu hội thoại dài 1 giờ
- Đo WER (tỷ lệ lỗi từ), SIM (độ tương đồng người nói) và đánh giá chủ quan (MOS)
- VIBEVOICE-7B đạt hiệu năng cao nhất với Realism 3.71, Richness 3.81, Preference 3.75
- Vượt trội hơn các mô hình mới nhất như Gemini 2.5 Pro, ElevenLabs v3
Kết luận và giới hạn
- VibeVoice là khung TTS thế hệ tiếp theo hỗ trợ tổng hợp hội thoại tự nhiên với tối đa 90 phút và 4 người nói
- Chất lượng cả chủ quan lẫn khách quan đều vượt trội so với các mô hình mã nguồn mở và thương mại hiện có
- Giới hạn:
- Với các ngôn ngữ ngoài tiếng Anh và tiếng Trung, kết quả có thể không như mong đợi
- Không hỗ trợ âm thanh phi giọng nói (âm nền, nhạc)
- Không hỗ trợ phát biểu chồng lấn (Overlapping Speech)
- Có tồn tại rủi ro bị lạm dụng cho deepfake và thông tin sai lệch
- Vì vậy hiện tại chỉ dành cho mục đích nghiên cứu và phát triển, không khuyến nghị sử dụng thương mại
Chưa có bình luận nào.