1 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Bao gồm họ mô hình AI giọng nói tích hợp cả TTS và ASR, xử lý cả tạo giọng nói dài và nhận dạng giọng nói dài
  • Kiến trúc cốt lõi là sự kết hợp giữa bộ mã hóa token giọng nói liên tục siêu ít khung hình 7.5 Hznext-token diffusion, nhằm xử lý chuỗi dài đồng thời hướng tới cả chất lượng âm thanh lẫn hiệu quả tính toán
  • Dùng LLM để hiểu ngữ cảnh văn bản và mạch hội thoại, đồng thời gắn thêm diffusion head để tạo ra các chi tiết âm học có độ trung thực cao
  • VibeVoice-ASR xử lý tối đa 60 phút âm thanh trong một lần chạy duy nhất, và tạo bản chép lời có cấu trúc chứa đồng thời thông tin người nói, timestamp và nội dung phát biểu
  • Mô hình ASR hỗ trợ hơn 50 ngôn ngữ và có thể nhận hotword hoặc thông tin ngữ cảnh tùy chỉnh từ người dùng để cải thiện độ chính xác nhận dạng theo miền chuyên biệt
  • Phía ASR đã công bố mã finetuninghỗ trợ suy luận vLLM, đồng thời có thể dùng trực tiếp trong thư viện Hugging Face Transformers
  • VibeVoice-TTS có thể tổng hợp giọng nói dài tối đa 90 phút trong một lần chạy duy nhất và hỗ trợ tối đa 4 người nói trong một cuộc hội thoại
  • TTS nhấn mạnh giọng nói hội thoại giàu biểu cảm và tính nhất quán của người nói, đồng thời hỗ trợ tiếng Anh, tiếng Trung và các ngôn ngữ khác
  • Theo thông báo trong kho lưu trữ, mã VibeVoice-TTS hiện đã bị gỡ bỏ; dự án nêu rõ rằng sau khi công khai, đã xác nhận có các cách sử dụng không phù hợp với mục đích được tuyên bố nên mã đã bị xóa khỏi kho
  • VibeVoice-Realtime-0.5B là mô hình TTS thời gian thực quy mô 0.5B, hỗ trợ đầu vào văn bản streaming, độ trễ nghe được đầu tiên khoảng 300ms, và tạo giọng nói dài khoảng 10 phút
  • Mô hình Realtime được bổ sung người nói thử nghiệm đa ngôn ngữ cho 9 ngôn ngữ11 giọng tiếng Anh theo phong cách khác nhau, đồng thời ghi rõ rằng sẽ tiếp tục mở rộng thêm nhiều kiểu người nói hơn
  • Các kênh phân phối chủ yếu được sắp xếp qua trọng số trên Hugging Face, Playground và Colab nên có thể thử nghiệm nhanh
  • Kho lưu trữ này được hướng dẫn là chỉ dành cho mục đích nghiên cứu và phát triển, và không được khuyến nghị dùng cho mục đích thương mại hoặc môi trường thực tế nếu chưa có thêm kiểm thử và phát triển
  • Mô hình có thể kế thừa thiên lệch và lỗi của mô hình nền Qwen2.5 1.5b, đồng thời tồn tại rủi ro deepfake, mạo danh và phát tán thông tin sai lệch, vì vậy khuyến nghị sử dụng hợp pháp, có trách nhiệm và công khai rõ nội dung do AI tạo ra

1 bình luận

 
Ý kiến trên Hacker News
  • Đây cũng không phải mô hình mới, mà xét theo tiêu chí STT thì bị ảo giác nhiều, suy luận cũng nặng và chậm, hiệu năng đa ngôn ngữ cũng không tốt
    Tôi không rõ các tính năng khác thế nào, ở đây chỉ đang nói thuần túy về speech to text thôi

    • Không phải là hoàn toàn không có ưu điểm, trong vài trường hợp khả năng biểu đạt có tốt hơn một chút
      Nhưng nhìn chung có cảm giác được huấn luyện trên dữ liệu nhiều nhiễu, dùng nhiều bộ nhớ hơn và tốc độ cũng không nhanh
      Tôi đang nói về bản 7B là vibevoice-community, từng được công khai trong thời gian ngắn rồi nhanh chóng bị gỡ xuống; hiện tại tôi vẫn dùng chatterbox turbo và thỉnh thoảng là qwen TTS
    • Không hiểu sao hôm nay tự nhiên nó lại được chú ý nhiều như vậy
      Trên Twitter cũng toàn thấy nói về chuyện này
    • TTS cũng không tốt
      Tôi đã dùng thử vài ngày, trước hết là không có tài liệu cho mô hình 1.5B, còn mô hình realtime 0.5B thì rất tệ
      Nó chuyển đổi văn bản theo từng dòng và chèn nhạc ngẫu nhiên vào, lại còn không xử lý đúng các ký tự đặc biệt như
      Thành thật mà nói là khá thất vọng
    • SOTA hiện tại đã đi xa hơn rất nhiều so với cái này
    • Nhờ cuộc thảo luận này mà tôi tiết kiệm được rất nhiều thời gian
      Tôi vừa bỏ sao repo luôn và sẽ bỏ qua nó
  • Tôi nghĩ nên ngừng gọi các mô hình kiểu này là mã nguồn mở
    Thực tế chúng chỉ là open weight, còn mã huấn luyện thì độc quyền và chưa từng được công bố
    https://github.com/microsoft/VibeVoice/issues/102

    • Giờ chúng ta đang sống trong thời đại mà freeware cũng bị gọi là mã nguồn mở
      Xin lỗi nhé, Stallman
    • Điều khiến tôi giữ lại sự khó chịu này là những mô hình được phân phối bằng giấy phép không phải mã nguồn mở nhưng vẫn tự gọi là mã nguồn mở
      Khi một dự án ghi là mã nguồn mở, điều quan trọng hơn là tôi thực sự có thể làm gì với nó
    • Con tàu này đã rời bến rồi
      Phân biệt open source vs open weight giờ có vẻ đã rơi vào cùng nhóm với tranh cãi hacker/cracker hay cách phát âm GIF
    • Nghĩ ngược lại thì, nếu tôi chỉ đưa cho bạn mã MIT dưới dạng binary mà không bao giờ gửi source, thì đoạn mã đó vẫn có thể là mã nguồn mở
      Chỉ là bạn không có quyền truy cập, còn bản thân giấy phép vẫn là MIT
      Dù vậy tôi hoàn toàn đồng ý rằng Microsoft đang phóng đại mức độ cởi mở ở đây, và điều đó cũng chẳng có gì đáng ngạc nhiên
    • Ít nhất thì nó là giấy phép MIT, vậy cũng còn đỡ
      Dữ liệu huấn luyện không công khai cũng làm tôi khó chịu, nhưng với tôi giấy phép hạn chế còn khó chịu hơn
  • Trong nhóm này, tôi thấy Voxtral tốt hơn nhiều
    Hơn nữa nó còn đủ nhỏ để chạy trên webGPU
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont đã đăng một câu chuyện thú vị về repo/product/author này
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • Cách họ cố giấu liên kết thật sự rất ấn tượng
  • Hình như đây là dự án mà Microsoft từng công bố rồi nhanh chóng gỡ xuống vì lý do bảo mật/an toàn đúng không
    Tôi tò mò không biết sau đó đã thay đổi những gì

    • Cứ xem mục News trong readme là được
      Mô hình TTS gốc đã biến mất khỏi repo này, nhưng ở nơi khác thì vẫn còn có thể tìm thấy
      Thay vào đó, các mô hình SST/ASR, long form TTS và streaming TTS là các bản mới hơn
    • Ít nhất với tôi thì nó khá khó hiểu
      Vì dự án này cùng lúc bao trùm nhiều mảng, bao gồm cả những thứ vừa nói ở trên
  • Cũng khá thú vị khi thấy một nơi như Microsoft chính thức hóa từ vibe thành thuật ngữ sản phẩm AI

    • Đặc biệt là vì vibe coded có thể mang sắc thái tiêu cực kiểu vá víu gấp gáp mà không thực sự hiểu rõ
    • Cũng có lúc tôi tự hỏi liệu đây có phải một kiểu chơi chữ từ Via Voice, hệ STT bị nguyền rủa của IBM thập niên 90, hay không
    • Điều còn đáng ngạc nhiên hơn là họ đã kiềm chế được cám dỗ gọi nó là Copilot
  • speech-swift do tôi tạo ra cũng tập trung vào xử lý giọng nói on-device giống như VibeVoice
    Nhưng nó được làm để chạy ASR, TTS, VAD bằng cách tận dụng năng lực Apple Silicon mà không phụ thuộc vào đám mây
    ASR hỗ trợ 52 ngôn ngữ và real-time factor là 0.06
    https://soniqo.audio/benchmarks

  • Bài viết tối qua của Simon khá hay
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Để tham khảo thì bài đó chỉ nói về phía Speech-to-Text / Speech-Recognition
      Nó thuộc cùng mảng với whisper, còn ngoài ra còn có các mô hình long-form TTS và streaming TTS riêng
    • Nghe nói VibeVoice chỉ xử lý được tối đa 1 giờ audio
      Tôi tò mò không biết vì sao lại như vậy
  • Tôi đã chọn Microsoft Sam làm giọng nói mặc định cho máy tính

    • Tôi vẫn nhớ hồi ngồi trong phòng máy với bạn bè, tụi tôi nhập những chuỗi dài vào Microsoft Sam để tạo ra các hiệu ứng âm thanh buồn cười
      Sususususususu
  • Wow, cuối cùng cũng có một sản phẩm AI của Microsoft không mang tên Copilot

    • Nếu gọi là Vopilot thì chắc hợp hơn đấy