12 điểm bởi xguru 9 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Bộ mô hình AI giọng nói mã nguồn mở do Microsoft công bố, bao gồm cả TTS (văn bản→giọng nói) và ASR (giọng nói→văn bản)
  • ASR tương tự OpenAI Whisper nhưng có tính năng phân tách người nói (speaker diarization) được tích hợp ngay trong mô hình
  • Đổi mới cốt lõi là bộ tokenizer giọng nói liên tục với tốc độ khung siêu thấp 7.5Hz, giúp cải thiện mạnh hiệu quả tính toán cho các chuỗi dài trong khi vẫn giữ chất lượng âm thanh
  • Áp dụng khung next-token diffusion - LLM hiểu ngữ cảnh văn bản, còn diffusion head tạo ra các chi tiết âm thanh chất lượng cao
  • VibeVoice-ASR (7B): xử lý tối đa 60 phút âm thanh trong một lượt duy nhất, xuất ra có cấu trúc về người nói (Who), dấu thời gian (When) và nội dung (What)
    • Tính năng hotword tùy chỉnh cho người dùng giúp cải thiện độ chính xác nhận diện các thuật ngữ đặc thù theo miền
    • Mô hình đa ngôn ngữ hỗ trợ gốc hơn 50 ngôn ngữ
    • Tích hợp vào Hugging Face Transformers từ tháng 3/2026
    • Hỗ trợ suy luận vLLM để tăng tốc inference và đã công bố mã fine-tuning
  • VibeVoice-TTS (1.5B): tạo giọng nói hội thoại dài tối đa 90 phút trong một lượt duy nhất, hỗ trợ tối đa 4 người nói cùng lúc
    • Tạo giọng nói tự nhiên, giàu biểu cảm, nắm bắt được sắc thái cảm xúc và động lực hội thoại, đồng thời hỗ trợ đa ngôn ngữ
    • Được công bố ngày 25/8/2025, nhưng sau đó phát hiện có trường hợp bị sử dụng trái với ý định ban đầu nên vào ngày 5/9/2025 mã TTS đã bị gỡ khỏi repository
  • VibeVoice-Realtime (0.5B): TTS thời gian thực cho tối đa 10 phút, với thời gian tới đầu ra giọng nói đầu tiên chỉ khoảng 300 mili giây
    • Mô hình chuyển văn bản thành giọng nói thời gian thực nhẹ, 0.5B tham số, thân thiện cho triển khai
    • Hỗ trợ đầu vào văn bản streaming
    • Công bố ngày 3/12/2025, sau đó vào ngày 16/12 đã thử nghiệm bổ sung giọng nói đa ngôn ngữ cho 9 ngôn ngữ (DE, FR, IT, JP, KR, NL, PL, PT, ES) và 11 kiểu giọng tiếng Anh
    • Hỗ trợ Apple Silicon (MPS) được thêm vào demo Gradio ASR, cải thiện khả năng sử dụng trên Mac
  • Dựa trên mô hình nền (Qwen2.5 1.5B), nên có thể kế thừa thiên lệch và lỗi; cần lưu ý nguy cơ bị lạm dụng cho deepfake
  • Giấy phép MIT

1 bình luận

 

VibeVoice - mô hình tổng hợp giọng nói mã nguồn mở thế hệ tiếp theo của Microsoft
Trên GeekNews thì nó đã được công khai ngay từ đầu, nhưng do có vấn đề nên mã VibeVoice-TTS đã bị gỡ bỏ.
Có vẻ hiện tại TTS chỉ còn dùng được VibeVoice-Realtime.
Vài ngày gần đây, có vẻ VibeVoice-ASR lại nổi lên nên thấy được nhắc đến ở nhiều nơi.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison đã thử nghiệm, và trên Mac có thể chạy bằng một dòng lệnh với uvmlx-audio,
xử lý 1 giờ âm thanh chỉ trong khoảng 8 phút 45 giây trên MacBook Pro M5 Max 128GB.
Có thể xem nó như Whisper tách người nói rất tốt vậy