- Bao gồm họ mô hình AI giọng nói tích hợp cả TTS và ASR, xử lý cả tạo giọng nói dài và nhận dạng giọng nói dài
- Kiến trúc cốt lõi là sự kết hợp giữa bộ mã hóa token giọng nói liên tục siêu ít khung hình 7.5 Hz và next-token diffusion, nhằm xử lý chuỗi dài đồng thời hướng tới cả chất lượng âm thanh lẫn hiệu quả tính toán
- Dùng LLM để hiểu ngữ cảnh văn bản và mạch hội thoại, đồng thời gắn thêm diffusion head để tạo ra các chi tiết âm học có độ trung thực cao
- VibeVoice-ASR xử lý tối đa 60 phút âm thanh trong một lần chạy duy nhất, và tạo bản chép lời có cấu trúc chứa đồng thời thông tin người nói, timestamp và nội dung phát biểu
- Mô hình ASR hỗ trợ hơn 50 ngôn ngữ và có thể nhận hotword hoặc thông tin ngữ cảnh tùy chỉnh từ người dùng để cải thiện độ chính xác nhận dạng theo miền chuyên biệt
- Phía ASR đã công bố mã finetuning và hỗ trợ suy luận vLLM, đồng thời có thể dùng trực tiếp trong thư viện Hugging Face Transformers
- VibeVoice-TTS có thể tổng hợp giọng nói dài tối đa 90 phút trong một lần chạy duy nhất và hỗ trợ tối đa 4 người nói trong một cuộc hội thoại
- TTS nhấn mạnh giọng nói hội thoại giàu biểu cảm và tính nhất quán của người nói, đồng thời hỗ trợ tiếng Anh, tiếng Trung và các ngôn ngữ khác
- Theo thông báo trong kho lưu trữ, mã VibeVoice-TTS hiện đã bị gỡ bỏ; dự án nêu rõ rằng sau khi công khai, đã xác nhận có các cách sử dụng không phù hợp với mục đích được tuyên bố nên mã đã bị xóa khỏi kho
- VibeVoice-Realtime-0.5B là mô hình TTS thời gian thực quy mô 0.5B, hỗ trợ đầu vào văn bản streaming, độ trễ nghe được đầu tiên khoảng 300ms, và tạo giọng nói dài khoảng 10 phút
- Mô hình Realtime được bổ sung người nói thử nghiệm đa ngôn ngữ cho 9 ngôn ngữ và 11 giọng tiếng Anh theo phong cách khác nhau, đồng thời ghi rõ rằng sẽ tiếp tục mở rộng thêm nhiều kiểu người nói hơn
- Các kênh phân phối chủ yếu được sắp xếp qua trọng số trên Hugging Face, Playground và Colab nên có thể thử nghiệm nhanh
- Kho lưu trữ này được hướng dẫn là chỉ dành cho mục đích nghiên cứu và phát triển, và không được khuyến nghị dùng cho mục đích thương mại hoặc môi trường thực tế nếu chưa có thêm kiểm thử và phát triển
- Mô hình có thể kế thừa thiên lệch và lỗi của mô hình nền Qwen2.5 1.5b, đồng thời tồn tại rủi ro deepfake, mạo danh và phát tán thông tin sai lệch, vì vậy khuyến nghị sử dụng hợp pháp, có trách nhiệm và công khai rõ nội dung do AI tạo ra
1 bình luận
Ý kiến trên Hacker News
Đây cũng không phải mô hình mới, mà xét theo tiêu chí STT thì bị ảo giác nhiều, suy luận cũng nặng và chậm, hiệu năng đa ngôn ngữ cũng không tốt
Tôi không rõ các tính năng khác thế nào, ở đây chỉ đang nói thuần túy về speech to text thôi
Nhưng nhìn chung có cảm giác được huấn luyện trên dữ liệu nhiều nhiễu, dùng nhiều bộ nhớ hơn và tốc độ cũng không nhanh
Tôi đang nói về bản 7B là vibevoice-community, từng được công khai trong thời gian ngắn rồi nhanh chóng bị gỡ xuống; hiện tại tôi vẫn dùng chatterbox turbo và thỉnh thoảng là qwen TTS
Trên Twitter cũng toàn thấy nói về chuyện này
Tôi đã dùng thử vài ngày, trước hết là không có tài liệu cho mô hình 1.5B, còn mô hình realtime 0.5B thì rất tệ
Nó chuyển đổi văn bản theo từng dòng và chèn nhạc ngẫu nhiên vào, lại còn không xử lý đúng các ký tự đặc biệt như
…Thành thật mà nói là khá thất vọng
Tôi vừa bỏ sao repo luôn và sẽ bỏ qua nó
Tôi nghĩ nên ngừng gọi các mô hình kiểu này là mã nguồn mở
Thực tế chúng chỉ là open weight, còn mã huấn luyện thì độc quyền và chưa từng được công bố
https://github.com/microsoft/VibeVoice/issues/102
Xin lỗi nhé, Stallman
Khi một dự án ghi là mã nguồn mở, điều quan trọng hơn là tôi thực sự có thể làm gì với nó
Phân biệt open source vs open weight giờ có vẻ đã rơi vào cùng nhóm với tranh cãi hacker/cracker hay cách phát âm GIF
Chỉ là bạn không có quyền truy cập, còn bản thân giấy phép vẫn là MIT
Dù vậy tôi hoàn toàn đồng ý rằng Microsoft đang phóng đại mức độ cởi mở ở đây, và điều đó cũng chẳng có gì đáng ngạc nhiên
Dữ liệu huấn luyện không công khai cũng làm tôi khó chịu, nhưng với tôi giấy phép hạn chế còn khó chịu hơn
Trong nhóm này, tôi thấy Voxtral tốt hơn nhiều
Hơn nữa nó còn đủ nhỏ để chạy trên webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont đã đăng một câu chuyện thú vị về repo/product/author này
https://cyberplace.social/@GossiTheDog/116454846703138243
Hình như đây là dự án mà Microsoft từng công bố rồi nhanh chóng gỡ xuống vì lý do bảo mật/an toàn đúng không
Tôi tò mò không biết sau đó đã thay đổi những gì
Mô hình TTS gốc đã biến mất khỏi repo này, nhưng ở nơi khác thì vẫn còn có thể tìm thấy
Thay vào đó, các mô hình SST/ASR, long form TTS và streaming TTS là các bản mới hơn
Vì dự án này cùng lúc bao trùm nhiều mảng, bao gồm cả những thứ vừa nói ở trên
Cũng khá thú vị khi thấy một nơi như Microsoft chính thức hóa từ vibe thành thuật ngữ sản phẩm AI
speech-swift do tôi tạo ra cũng tập trung vào xử lý giọng nói on-device giống như VibeVoice
Nhưng nó được làm để chạy ASR, TTS, VAD bằng cách tận dụng năng lực Apple Silicon mà không phụ thuộc vào đám mây
ASR hỗ trợ 52 ngôn ngữ và real-time factor là 0.06
https://soniqo.audio/benchmarks
Bài viết tối qua của Simon khá hay
https://simonwillison.net/2026/Apr/27/vibevoice/
Nó thuộc cùng mảng với whisper, còn ngoài ra còn có các mô hình long-form TTS và streaming TTS riêng
Tôi tò mò không biết vì sao lại như vậy
Tôi đã chọn Microsoft Sam làm giọng nói mặc định cho máy tính
Sususususususu
Wow, cuối cùng cũng có một sản phẩm AI của Microsoft không mang tên Copilot