VibeVoice - mô hình tổng hợp giọng nói mã nguồn mở thế hệ tiếp theo của Microsoft

(microsoft.github.io)

5 điểm bởi GN⁺ 2025-09-04 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình TTS mới được thiết kế để tạo ra đối thoại giọng nói tự nhiên nhiều người nói trong thời lượng dài từ văn bản
Được xây dựng để giải quyết các vấn đề về khả năng mở rộng, tính nhất quán của người nói và chuyển lượt tự nhiên vốn là giới hạn của các hệ thống trước đây
Có thể tổng hợp âm thanh dài tối đa 90 phút với tối đa 4 người nói cùng lúc, vượt qua giới hạn 1–2 người nói của các mô hình trước đó
Trọng tâm là sử dụng bộ mã hóa token giọng nói liên tục với tốc độ khung hình siêu thấp 7.5Hz (Acoustic/Semantic) để xử lý hiệu quả các chuỗi âm thanh dài mà vẫn giữ được chất lượng âm thanh
Sử dụng phương pháp Next-Token Diffusion để mô hình hóa dữ liệu liên tục một cách hiệu quả, đồng thời giới thiệu bộ mã hóa token giọng nói liên tục mới có tỷ lệ nén cao gấp 80 lần so với Encodec hiện có

Giới thiệu

Gần đây, công nghệ TTS đã thành công trong việc tổng hợp các phát ngôn ngắn của một người nói với chất lượng cao, nhưng tổng hợp hội thoại nhiều người nói trong thời lượng dài vẫn là một thách thức
- Các phương pháp hiện có chỉ đơn giản nối các phát ngôn lại với nhau nên tạo ra chuyển tiếp thiếu tự nhiên
- Khó tạo ra việc luân phiên lượt nói tự nhiên và sinh nội dung có nhận thức ngữ cảnh
Mục tiêu: hỗ trợ tổng hợp giọng nói hội thoại dài, nhiều người nói như podcast
Để giải quyết điều này, VibeVoice kết hợp bộ mã hóa token giọng nói với tốc độ khung hình siêu thấp (7.5Hz) và kiến trúc Diffusion dựa trên LLM
Nhờ đó có thể tổng hợp ổn định âm thanh nhiều người nói dài tối đa 90 phút

Đổi mới kỹ thuật

Bộ mã hóa token giọng nói liên tục (7.5Hz):
- Sử dụng song song bộ mã hóa token Acoustic + Semantic
- Vừa đảm bảo hiệu quả xử lý chuỗi dài, vừa duy trì độ trung thực của âm thanh
Khung Next-token diffusion:
- LLM hiểu ngữ cảnh văn bản và dòng chảy hội thoại
- Diffusion head tạo ra chi tiết âm học độ phân giải cao
Kết quả: tổng hợp giọng nói tự nhiên và giống người hơn nhiều so với trước đây

Hiệu năng

Có thể tổng hợp giọng nói dài tối đa 90 phút
Hỗ trợ tối đa 4 người nói (vượt qua giới hạn 1–2 người nói của các mô hình trước đây)
Cung cấp giọng nói giàu biểu cảm và nhất quán trong nhiều tình huống hội thoại khác nhau

Kết quả thực nghiệm

Tổng hợp hội thoại dài (Podcast)

Đánh giá trên bộ dữ liệu hội thoại dài 1 giờ
Đo WER (tỷ lệ lỗi từ), SIM (độ tương đồng người nói) và đánh giá chủ quan (MOS)
VIBEVOICE-7B đạt hiệu năng cao nhất với Realism 3.71, Richness 3.81, Preference 3.75
Vượt trội hơn các mô hình mới nhất như Gemini 2.5 Pro, ElevenLabs v3

Kết luận và giới hạn

VibeVoice là khung TTS thế hệ tiếp theo hỗ trợ tổng hợp hội thoại tự nhiên với tối đa 90 phút và 4 người nói
Chất lượng cả chủ quan lẫn khách quan đều vượt trội so với các mô hình mã nguồn mở và thương mại hiện có
Giới hạn:
- Với các ngôn ngữ ngoài tiếng Anh và tiếng Trung, kết quả có thể không như mong đợi
- Không hỗ trợ âm thanh phi giọng nói (âm nền, nhạc)
- Không hỗ trợ phát biểu chồng lấn (Overlapping Speech)
- Có tồn tại rủi ro bị lạm dụng cho deepfake và thông tin sai lệch
Vì vậy hiện tại chỉ dành cho mục đích nghiên cứu và phát triển, không khuyến nghị sử dụng thương mại

1 bình luận

GN⁺ 2025-09-04

Ý kiến trên Hacker News

Tôi đã vào trang với rất nhiều kỳ vọng sau khi thấy nhiều bình luận khen mô hình giọng nói này cực kỳ chân thực, nhưng khi nghe thực tế thì ấn tượng lại hoàn toàn khác. Chất lượng âm thanh tự nó thì ổn, nhưng ngữ điệu trong hầu hết các câu nghe gượng gạo và rõ ràng vẫn mang cảm giác máy móc. So với TTS của vài năm trước thì khá ấn tượng, nhưng nếu đặt cạnh các giọng AI hiện nay thì không quá nổi bật. Đặc biệt, ngay cả những giọng AI thường nghe trên YouTube Shorts cũng cho cảm giác tốt ngang phần lớn mẫu trên trang này. Chỉ có một điều khiến tôi thấy ấn tượng là các mẫu tiếng Anh và tiếng Trung (có lẽ là Quan Thoại), nơi hai ngôn ngữ được chuyển đổi rất tự nhiên. Tuy vậy, tôi không rành tiếng Trung nên không thể đánh giá phát âm chính xác, và cũng có thể việc chuyển đổi dễ hơn vì có thể phân biệt rõ chữ Hán với bảng chữ cái. Tôi đoán nếu là hai ngôn ngữ dùng cùng một hệ chữ viết thì có lẽ sẽ không tự nhiên đến vậy. Cuối cùng, mẫu hát khá khó nghe, và tôi rất tò mò vì sao họ lại thêm loại mẫu này
- Cách đội ngũ phát triển nói về phần hát và nhạc nền nghe hơi lạ. Tôi có cảm giác rất rõ rằng họ không tìm ra cách loại bỏ nhạc nền kịp hạn chót của bài báo nên cứ gọi nó là một “tính năng”. Ấn tượng của tôi là họ không thực sự thêm nó vì nghĩ đó là điểm khác biệt
- Nếu có mô hình TTS nào tốt hơn mô hình này thì mong mọi người giới thiệu. Lúc nào cũng có người phóng đại tiến bộ, và cũng có người hạ thấp nó, nhưng tôi không nghĩ bên nào cản trở sự phát triển cả. Trong số các mô hình tôi từng nghe thì đây là cái tốt nhất, nhưng biết đâu vẫn có cái hay hơn mà tôi chưa biết
- Mô hình này khá tốt, nhưng trong các mô hình miễn phí thì chưa phải tốt nhất. Chatterbox chân thực hơn, ít cảm giác máy móc hơn nhiều và ngữ điệu cũng tự nhiên hơn (dù chưa hoàn hảo)
- Tôi thấy giọng nữ tự nhiên và thuyết phục hơn rất nhiều so với giọng nam. Ngược lại, giọng nam thì không khá hơn TTS của 10 năm trước là bao
- Điểm mạnh thực sự của mô hình này là voice cloning. Chỉ cần bỏ mẫu giọng của bạn vào thư mục voices là nó hoạt động rất tốt
Tôi rất mong trong nội bộ Microsoft họ nhất quyết đặt tên cho open source coding agent là Microsoft VibeCode. Hoặc đặt là “Lo”, rồi dùng cùng với Phi cũng được. Như vậy có thể vừa “Lo Phi” vừa vibe code. Thông tin về mô hình ngôn ngữ Phi 4 của Microsoft
- Nhìn vào lịch sử marketing của Microsoft thì tôi nghĩ cuối cùng nó либо sẽ là một cái tên trực diện kiểu "Microsoft Copilot Code Generator for VSCode", hoặc tự dưng lại là cái tên như "Zunega"
- Ý tưởng thiên tài
VibeVoice-Large là TTS cục bộ đầu tiên hỗ trợ phát âm tiếng Phần Lan gần như không có giọng ngoại quốc mà vẫn rất tự nhiên. Hôm qua tôi đã tự tay thử và đặc biệt ấn tượng với khả năng sao chép cả giọng nói lẫn cảm xúc
Về mặt kỹ thuật thì chất lượng khá cao, nhưng đặc biệt ở phần giọng nam, vừa nghe là có cảm giác ngay đây là giọng do AI tạo ra. Tôi không có đủ kiến thức âm thanh để diễn tả rõ lý do vì sao
- Tôi cũng không phải kỹ sư âm thanh, nhưng giọng AI này cho tôi cảm giác giống âm của sóng “saw-tooth”. Các mô hình cơ bản hoặc công nghệ cấu hình thấp lấy mẫu kém hơn nên tạo ra kiểu xung âm thanh (rung) nhiều hơn, khiến nó có cảm giác cơ khí, bị nghẹn. Mô hình càng tốt thì dạng sóng càng thay đổi mượt hơn. Tài liệu tham khảo về dạng sóng
- Theo cảm nhận của tôi thì âm sắc bị cắt khúc như từng khối, và nếu hình dung bằng trực quan thì dạng sóng thiếu độ nhọn, tạo ra tiếng vang như trong hộp kim loại
- Nghe trực tiếp thì tôi hiểu cảm giác đó là gì. Có những đoạn giọng nghe như bị rung hoặc như file mp3 bị nén quá mạnh
Giọng nam nghe nhân tạo hơn giọng nữ rất nhiều, gần như giống robot. Việc phần lớn mẫu chính thức đều bắt đầu bằng giọng nữ cho thấy đội phát triển cũng nhận ra vấn đề này
- Tôi cũng thấy tương tự. Giọng nam rõ ràng nghe nhân tạo hơn
Tôi tò mò không biết có bảng xếp hạng hay danh sách phổ biến cập nhật nào cho các mô hình TTS open-weight không. Thực ra tôi quan tâm đến STT (ASR) hơn, nhưng lựa chọn hiện khá ít
- Có thể xem tại danh sách mô hình TTS trên Hugging Face. Những mô hình lên mục trending thường là những mô hình đáng để dùng ở mức tương ứng. Vì tiêu chí đánh giá rất chủ quan nên điều quan trọng nhất vẫn là tự nghe thử. Với các mô hình không lên xu hướng trên HF thì khả năng cao là chúng không quá tốt
- Các TTS có thể xem là hàng đầu: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice và XTTS-2
- Bấm vào leaderboard trong menu hamburger thì sẽ ra trang xếp hạng TTS-AGI/TTS-Arena-V2
- Đỉnh thật
Với người dùng có GPU yếu thì mô hình này khó dùng. GPU 1080 cũ không chạy ổn được, còn khi chạy trên CPU với torch.float32 thì phải mất tới 832 giây để tạo ra đoạn âm thanh dài 66 giây. Khi đổi sang torch.bfloat16 thì trong âm thanh xuất hiện nhiễu lạ. Trong điều kiện thiếu GPU, mô hình TTS dùng được nhất với tôi cho đến nay là Kokoro. Ngoài ra, như có người đã nhắc trong thread này, hiện chưa có khả năng thêm annotation riêng vào văn bản để điều khiển đầu ra TTS một cách chi tiết. Tôi nghĩ hướng phát triển tiếp theo là thêm bước xử lý trung gian để tạo annotation từ văn bản rồi đưa nó vào TTS. Như vậy người dùng sẽ kiểm soát kết quả đầu ra tinh vi hơn
- Tôi nghĩ đây là cường điệu quá mức. macOS từ lâu đã hỗ trợ TTS gần như tức thời với chất lượng khá tốt rồi, và không cần đến các mô hình nặng như thế này. Độ trễ gần như bằng không. Tôi thấy cơn sốt “AI” này thực sự đang bị thổi phồng
Đã là open source thì tôi thắc mắc vì sao họ không công bố dữ liệu huấn luyện
- Phần lớn dữ liệu crawl đều có nhiều rủi ro pháp lý như bản quyền, điều khoản sử dụng, quyền riêng tư... nên với các công ty thương mại, việc mở hoàn toàn thường không phải lựa chọn khôn ngoan
Đoạn hội thoại mẫu Spontaneous Emotion cho cảm giác như đội ngũ đang để LLM “diễn” cảm xúc. Có lẽ sẽ tốt hơn nếu bỏ luôn mẫu hát đi. Mô hình này hiện hoàn toàn chưa phù hợp cho việc hát
- Chính bài hát này khiến tôi phải tìm lại để nghe. Đây thực sự là một ca khúc rất mạnh trong việc khơi gợi cảm xúc. Robot vẫn còn rất xa mới hát được ra hồn
Hai mô hình TTS hiện được xem là tốt nhất là HiggsAudio và VibeVoice. Cá nhân tôi thấy Higgs vượt trội hơn Vibe ở cả tốc độ lẫn chất lượng âm thanh. Còn về mức độ biểu cảm thì tôi chưa rõ, nhưng rất đáng để thử, đừng bỏ qua

VibeVoice - mô hình tổng hợp giọng nói mã nguồn mở thế hệ tiếp theo của Microsoft

Giới thiệu

Đổi mới kỹ thuật

Hiệu năng

Kết quả thực nghiệm

Tổng hợp hội thoại dài (Podcast)

Kết luận và giới hạn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News