VibeVoice - AI giọng nói frontier mã nguồn mở

(github.com/microsoft)

1 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Bao gồm họ mô hình AI giọng nói tích hợp cả TTS và ASR, xử lý cả tạo giọng nói dài và nhận dạng giọng nói dài
Kiến trúc cốt lõi là sự kết hợp giữa bộ mã hóa token giọng nói liên tục siêu ít khung hình 7.5 Hz và next-token diffusion, nhằm xử lý chuỗi dài đồng thời hướng tới cả chất lượng âm thanh lẫn hiệu quả tính toán
Dùng LLM để hiểu ngữ cảnh văn bản và mạch hội thoại, đồng thời gắn thêm diffusion head để tạo ra các chi tiết âm học có độ trung thực cao
VibeVoice-ASR xử lý tối đa 60 phút âm thanh trong một lần chạy duy nhất, và tạo bản chép lời có cấu trúc chứa đồng thời thông tin người nói, timestamp và nội dung phát biểu
Mô hình ASR hỗ trợ hơn 50 ngôn ngữ và có thể nhận hotword hoặc thông tin ngữ cảnh tùy chỉnh từ người dùng để cải thiện độ chính xác nhận dạng theo miền chuyên biệt
Phía ASR đã công bố mã finetuning và hỗ trợ suy luận vLLM, đồng thời có thể dùng trực tiếp trong thư viện Hugging Face Transformers
VibeVoice-TTS có thể tổng hợp giọng nói dài tối đa 90 phút trong một lần chạy duy nhất và hỗ trợ tối đa 4 người nói trong một cuộc hội thoại
TTS nhấn mạnh giọng nói hội thoại giàu biểu cảm và tính nhất quán của người nói, đồng thời hỗ trợ tiếng Anh, tiếng Trung và các ngôn ngữ khác
Theo thông báo trong kho lưu trữ, mã VibeVoice-TTS hiện đã bị gỡ bỏ; dự án nêu rõ rằng sau khi công khai, đã xác nhận có các cách sử dụng không phù hợp với mục đích được tuyên bố nên mã đã bị xóa khỏi kho
VibeVoice-Realtime-0.5B là mô hình TTS thời gian thực quy mô 0.5B, hỗ trợ đầu vào văn bản streaming, độ trễ nghe được đầu tiên khoảng 300ms, và tạo giọng nói dài khoảng 10 phút
Mô hình Realtime được bổ sung người nói thử nghiệm đa ngôn ngữ cho 9 ngôn ngữ và 11 giọng tiếng Anh theo phong cách khác nhau, đồng thời ghi rõ rằng sẽ tiếp tục mở rộng thêm nhiều kiểu người nói hơn
Các kênh phân phối chủ yếu được sắp xếp qua trọng số trên Hugging Face, Playground và Colab nên có thể thử nghiệm nhanh
Kho lưu trữ này được hướng dẫn là chỉ dành cho mục đích nghiên cứu và phát triển, và không được khuyến nghị dùng cho mục đích thương mại hoặc môi trường thực tế nếu chưa có thêm kiểm thử và phát triển
Mô hình có thể kế thừa thiên lệch và lỗi của mô hình nền Qwen2.5 1.5b, đồng thời tồn tại rủi ro deepfake, mạo danh và phát tán thông tin sai lệch, vì vậy khuyến nghị sử dụng hợp pháp, có trách nhiệm và công khai rõ nội dung do AI tạo ra

1 bình luận

GN⁺ 5 giờ trước

Ý kiến trên Hacker News

Đây cũng không phải mô hình mới, mà xét theo tiêu chí STT thì bị ảo giác nhiều, suy luận cũng nặng và chậm, hiệu năng đa ngôn ngữ cũng không tốt
Tôi không rõ các tính năng khác thế nào, ở đây chỉ đang nói thuần túy về speech to text thôi
- Không phải là hoàn toàn không có ưu điểm, trong vài trường hợp khả năng biểu đạt có tốt hơn một chút
  Nhưng nhìn chung có cảm giác được huấn luyện trên dữ liệu nhiều nhiễu, dùng nhiều bộ nhớ hơn và tốc độ cũng không nhanh
  Tôi đang nói về bản 7B là vibevoice-community, từng được công khai trong thời gian ngắn rồi nhanh chóng bị gỡ xuống; hiện tại tôi vẫn dùng chatterbox turbo và thỉnh thoảng là qwen TTS
- Không hiểu sao hôm nay tự nhiên nó lại được chú ý nhiều như vậy
  Trên Twitter cũng toàn thấy nói về chuyện này
- TTS cũng không tốt
  Tôi đã dùng thử vài ngày, trước hết là không có tài liệu cho mô hình 1.5B, còn mô hình realtime 0.5B thì rất tệ
  Nó chuyển đổi văn bản theo từng dòng và chèn nhạc ngẫu nhiên vào, lại còn không xử lý đúng các ký tự đặc biệt như …
  Thành thật mà nói là khá thất vọng
- SOTA hiện tại đã đi xa hơn rất nhiều so với cái này
- Nhờ cuộc thảo luận này mà tôi tiết kiệm được rất nhiều thời gian
  Tôi vừa bỏ sao repo luôn và sẽ bỏ qua nó
Tôi nghĩ nên ngừng gọi các mô hình kiểu này là mã nguồn mở
Thực tế chúng chỉ là open weight, còn mã huấn luyện thì độc quyền và chưa từng được công bố
https://github.com/microsoft/VibeVoice/issues/102
- Giờ chúng ta đang sống trong thời đại mà freeware cũng bị gọi là mã nguồn mở
  Xin lỗi nhé, Stallman
- Điều khiến tôi giữ lại sự khó chịu này là những mô hình được phân phối bằng giấy phép không phải mã nguồn mở nhưng vẫn tự gọi là mã nguồn mở
  Khi một dự án ghi là mã nguồn mở, điều quan trọng hơn là tôi thực sự có thể làm gì với nó
- Con tàu này đã rời bến rồi
  Phân biệt open source vs open weight giờ có vẻ đã rơi vào cùng nhóm với tranh cãi hacker/cracker hay cách phát âm GIF
- Nghĩ ngược lại thì, nếu tôi chỉ đưa cho bạn mã MIT dưới dạng binary mà không bao giờ gửi source, thì đoạn mã đó vẫn có thể là mã nguồn mở
  Chỉ là bạn không có quyền truy cập, còn bản thân giấy phép vẫn là MIT
  Dù vậy tôi hoàn toàn đồng ý rằng Microsoft đang phóng đại mức độ cởi mở ở đây, và điều đó cũng chẳng có gì đáng ngạc nhiên
- Ít nhất thì nó là giấy phép MIT, vậy cũng còn đỡ
  Dữ liệu huấn luyện không công khai cũng làm tôi khó chịu, nhưng với tôi giấy phép hạn chế còn khó chịu hơn
Trong nhóm này, tôi thấy Voxtral tốt hơn nhiều
Hơn nữa nó còn đủ nhỏ để chạy trên webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont đã đăng một câu chuyện thú vị về repo/product/author này
https://cyberplace.social/@GossiTheDog/116454846703138243
- Cách họ cố giấu liên kết thật sự rất ấn tượng
Hình như đây là dự án mà Microsoft từng công bố rồi nhanh chóng gỡ xuống vì lý do bảo mật/an toàn đúng không
Tôi tò mò không biết sau đó đã thay đổi những gì
- Cứ xem mục News trong readme là được
  Mô hình TTS gốc đã biến mất khỏi repo này, nhưng ở nơi khác thì vẫn còn có thể tìm thấy
  Thay vào đó, các mô hình SST/ASR, long form TTS và streaming TTS là các bản mới hơn
- Ít nhất với tôi thì nó khá khó hiểu
  Vì dự án này cùng lúc bao trùm nhiều mảng, bao gồm cả những thứ vừa nói ở trên
Cũng khá thú vị khi thấy một nơi như Microsoft chính thức hóa từ vibe thành thuật ngữ sản phẩm AI
- Đặc biệt là vì vibe coded có thể mang sắc thái tiêu cực kiểu vá víu gấp gáp mà không thực sự hiểu rõ
- Cũng có lúc tôi tự hỏi liệu đây có phải một kiểu chơi chữ từ Via Voice, hệ STT bị nguyền rủa của IBM thập niên 90, hay không
- Điều còn đáng ngạc nhiên hơn là họ đã kiềm chế được cám dỗ gọi nó là Copilot
speech-swift do tôi tạo ra cũng tập trung vào xử lý giọng nói on-device giống như VibeVoice
Nhưng nó được làm để chạy ASR, TTS, VAD bằng cách tận dụng năng lực Apple Silicon mà không phụ thuộc vào đám mây
ASR hỗ trợ 52 ngôn ngữ và real-time factor là 0.06
https://soniqo.audio/benchmarks
Bài viết tối qua của Simon khá hay
https://simonwillison.net/2026/Apr/27/vibevoice/
- Để tham khảo thì bài đó chỉ nói về phía Speech-to-Text / Speech-Recognition
  Nó thuộc cùng mảng với whisper, còn ngoài ra còn có các mô hình long-form TTS và streaming TTS riêng
- Nghe nói VibeVoice chỉ xử lý được tối đa 1 giờ audio
  Tôi tò mò không biết vì sao lại như vậy
Tôi đã chọn Microsoft Sam làm giọng nói mặc định cho máy tính
- Tôi vẫn nhớ hồi ngồi trong phòng máy với bạn bè, tụi tôi nhập những chuỗi dài vào Microsoft Sam để tạo ra các hiệu ứng âm thanh buồn cười
  Sususususususu
Wow, cuối cùng cũng có một sản phẩm AI của Microsoft không mang tên Copilot
- Nếu gọi là Vopilot thì chắc hợp hơn đấy

VibeVoice - AI giọng nói frontier mã nguồn mở

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News