VibeVoice - Mô hình AI giọng nói frontier mã nguồn mở

xguru · 2026-04-28T13:09:54+09:00

Họ mô hình AI giọng nói mã nguồn mở do Microsoft công bố, bao gồm cả TTS (văn bản→giọng nói) và ASR (giọng nói→văn bản) ASR tương tự OpenAI Whisper nhưng có tách người nói (speaker diarization) được tích hợp ngay trong mô hình Đổi mới cốt lõi là bộ mã hóa token giọng nói liên tục với tốc độ khung siêu thấp 7.5Hz, giúp cải thiện mạnh hiệu quả tính toán cho chuỗi dài trong khi vẫn giữ chất lượng âm thanh Áp dụng framework next-token diffusion - LLM hiểu ngữ cảnh văn bản, còn diffusion head tạo ra chi tiết âm học chất lượng cao VibeVoice-ASR (7B): xử lý tối đa 60 phút âm thanh trong một lượt suy luận duy nhất, xuất có cấu trúc theo người nói (Who) · mốc thời gian (When) · nội dung (What) Tính năng hotword tùy chỉnh theo người dùng giúp cải thiện độ chính xác nhận diện các thuật ngữ đặc thù miền Mô hình đa ngôn ngữ hỗ trợ native hơn 50 ngôn ngữ Tích hợp vào Hugging Face Transformers từ tháng 3/2026 Hỗ trợ suy luận bằng vLLM để tăng tốc inference và đã công bố mã fine-tuning VibeVoice-TTS (1.5B): tạo giọng nói hội thoại dài tối đa 90 phút trong một lượt suy luận, hỗ trợ tối đa 4 người nói cùng lúc Tạo giọng nói tự nhiên giàu biểu cảm, nắm bắt được sắc thái cảm xúc và động lực hội thoại, đồng thời hỗ trợ đa ngôn ngữ Được công bố ngày 25/8/2025, nhưng sau đó phát hiện các trường hợp bị sử dụng trái với mục đích ban đầu nên đến ngày 5/9/2025 mã TTS đã bị gỡ khỏi repository VibeVoice-Realtime (0.5B): TTS thời gian thực tối đa 10 phút, có thể cho ra âm thanh đầu tiên chỉ sau khoảng 300 mili giây Mô hình chuyển văn bản thành giọng nói thời gian thực nhẹ với 0.5B tham số, thân thiện cho triển khai Hỗ trợ đầu vào văn bản streaming Công bố ngày 3/12/2025, sau đó vào ngày 16/12 bổ sung thử nghiệm giọng nói đa ngôn ngữ ở 9 ngôn ngữ (DE, FR, IT, JP, KR, NL, PL, PT, ES) và 11 kiểu giọng tiếng Anh Hỗ trợ Apple Silicon (MPS) được thêm vào demo Gradio ASR, cải thiện khả năng sử dụng trên Mac Dựa trên mô hình nền (Qwen2.5 1.5B), nên có thể kế thừa thiên lệch và lỗi; cần lưu ý nguy cơ bị lạm dụng cho deepfake Giấy phép MIT

(github.com/microsoft)

36 điểm bởi xguru 2026-04-28 | 1 bình luận | Chia sẻ qua WhatsApp

Họ mô hình AI giọng nói mã nguồn mở do Microsoft công bố, bao gồm cả TTS (văn bản→giọng nói) và ASR (giọng nói→văn bản)
ASR tương tự OpenAI Whisper nhưng có tách người nói (speaker diarization) được tích hợp ngay trong mô hình
Đổi mới cốt lõi là bộ mã hóa token giọng nói liên tục với tốc độ khung siêu thấp 7.5Hz, giúp cải thiện mạnh hiệu quả tính toán cho chuỗi dài trong khi vẫn giữ chất lượng âm thanh
Áp dụng framework next-token diffusion - LLM hiểu ngữ cảnh văn bản, còn diffusion head tạo ra chi tiết âm học chất lượng cao
VibeVoice-ASR (7B): xử lý tối đa 60 phút âm thanh trong một lượt suy luận duy nhất, xuất có cấu trúc theo người nói (Who) · mốc thời gian (When) · nội dung (What)
- Tính năng hotword tùy chỉnh theo người dùng giúp cải thiện độ chính xác nhận diện các thuật ngữ đặc thù miền
- Mô hình đa ngôn ngữ hỗ trợ native hơn 50 ngôn ngữ
- Tích hợp vào Hugging Face Transformers từ tháng 3/2026
- Hỗ trợ suy luận bằng vLLM để tăng tốc inference và đã công bố mã fine-tuning
VibeVoice-TTS (1.5B): tạo giọng nói hội thoại dài tối đa 90 phút trong một lượt suy luận, hỗ trợ tối đa 4 người nói cùng lúc
- Tạo giọng nói tự nhiên giàu biểu cảm, nắm bắt được sắc thái cảm xúc và động lực hội thoại, đồng thời hỗ trợ đa ngôn ngữ
- Được công bố ngày 25/8/2025, nhưng sau đó phát hiện các trường hợp bị sử dụng trái với mục đích ban đầu nên đến ngày 5/9/2025 mã TTS đã bị gỡ khỏi repository
Quảng cáo
VibeVoice-Realtime (0.5B): TTS thời gian thực tối đa 10 phút, có thể cho ra âm thanh đầu tiên chỉ sau khoảng 300 mili giây
- Mô hình chuyển văn bản thành giọng nói thời gian thực nhẹ với 0.5B tham số, thân thiện cho triển khai
- Hỗ trợ đầu vào văn bản streaming
- Công bố ngày 3/12/2025, sau đó vào ngày 16/12 bổ sung thử nghiệm giọng nói đa ngôn ngữ ở 9 ngôn ngữ (DE, FR, IT, JP, KR, NL, PL, PT, ES) và 11 kiểu giọng tiếng Anh
- Hỗ trợ Apple Silicon (MPS) được thêm vào demo Gradio ASR, cải thiện khả năng sử dụng trên Mac
Dựa trên mô hình nền (Qwen2.5 1.5B), nên có thể kế thừa thiên lệch và lỗi; cần lưu ý nguy cơ bị lạm dụng cho deepfake
Giấy phép MIT

1 bình luận

xguru 2026-04-28

VibeVoice - mô hình AI giọng nói biên giới mã nguồn mở thế hệ mới của Microsoft
Trên GeekNews thì nó đã được công khai ngay từ đầu, nhưng do có vấn đề nên mã VibeVoice-TTS đã bị gỡ bỏ.
Có vẻ hiện tại TTS chỉ còn dùng được VibeVoice-Realtime.
Mấy ngày gần đây tôi thấy VibeVoice-ASR lại nổi lên ở nhiều nơi.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison đã thử nghiệm ASR, và trên Mac có thể chạy bằng lệnh một dòng với uv và mlx-audio,
âm thanh dài 1 giờ được xử lý trong khoảng 8 phút 45 giây trên MacBook Pro M5 Max 128GB.
Có thể xem nó là Whisper tách người nói tốt

VibeVoice - Mô hình AI giọng nói frontier mã nguồn mở

Bài viết liên quan

1 bình luận