10 điểm bởi GN⁺ 2024-01-19 | 1 bình luận | Chia sẻ qua WhatsApp

Tổng quan về WhisperSpeech

  • WhisperSpeech là một hệ thống text-to-speech mã nguồn mở được tạo ra bằng cách xây dựng ngược từ Whisper.
  • Mô hình này được thiết kế để vừa mạnh mẽ vừa dễ tùy biến, đồng thời có thể sử dụng an toàn cho mục đích thương mại.
  • Hiện tại mô hình được huấn luyện dựa trên bộ dữ liệu tiếng Anh LibreLight, và dự kiến sẽ hỗ trợ nhiều ngôn ngữ trong bản phát hành tiếp theo.

Cập nhật tiến độ [2024-01-18]

  • Trong tuần vừa qua, dự án tập trung vào việc tối ưu hiệu năng suy luận.
  • Nhờ tích hợp torch.compile, bổ sung kv-caching và điều chỉnh một số layer, hệ thống hiện chạy nhanh hơn thời gian thực 12 lần trên GPU 4090 dành cho người dùng phổ thông.
  • Đã bổ sung khả năng trộn nhiều ngôn ngữ trong một câu duy nhất.
  • Cũng đã thêm cách để dễ dàng thử nghiệm voice cloning.

Cập nhật tiến độ [2024-01-10]

  • Đã phát hành mô hình SD S2A mới tạo ra giọng nói nhanh hơn nhưng vẫn giữ chất lượng cao.
  • Cũng đã bổ sung ví dụ voice cloning dựa trên tệp âm thanh tham chiếu.

Cập nhật tiến độ [2023-12-10]

  • Đã bổ sung 3 mô hình mới hỗ trợ tiếng Anh và tiếng Ba Lan.
  • Cung cấp các mẫu giọng nói mới và có thể thử trực tiếp trên Colab.

Tải xuống

  • Khuyến nghị dùng liên kết Google Colab làm điểm khởi đầu hoặc chạy notebook được cung cấp trên máy cục bộ.
  • Nếu muốn tải thủ công hoặc tự huấn luyện mô hình từ đầu, có thể dùng các mô hình WhisperSpeech đã tiền huấn luyện và bộ dữ liệu đã được chuyển đổi trên HuggingFace.

Lộ trình

  • Thu thập bộ dữ liệu giọng nói cảm xúc lớn hơn
  • Tìm cách điều khiển quá trình sinh theo cảm xúc và ngữ điệu
  • Tạo ra nỗ lực cộng đồng nhằm thu thập giọng nói có thể tự do sử dụng ở nhiều ngôn ngữ khác nhau
  • Huấn luyện mô hình đa ngôn ngữ hoàn chỉnh

Kiến trúc

  • Có kiến trúc tổng quát tương tự AudioLM, SPEAR TTS và MusicGen.
  • Được xây dựng dựa trên các mô hình mã nguồn mở mạnh mẽ: Whisper của OpenAI để tạo semantic token và phiên âm, EnCodec của Meta cho acoustic modeling, và Vocos của Charactr Inc làm vocoder chất lượng cao.

Lời cảm ơn

  • Công trình này có được nhờ sự tài trợ của Collabora, LAION, Jülich Supercomputing Centre và sự hỗ trợ từ các cộng tác viên cá nhân.

Tư vấn

  • Có thể cung cấp hỗ trợ cho các dự án AI mã nguồn mở và độc quyền.

Trích dẫn

  • Dự án dựa trên nhiều dự án mã nguồn mở và bài báo nghiên cứu xuất sắc.

Ý kiến của GN⁺

  • WhisperSpeech là một dự án mã nguồn mở đột phá trong lĩnh vực tổng hợp giọng nói, cung cấp mô hình text-to-speech mạnh mẽ hỗ trợ nhiều ngôn ngữ và an toàn cho mục đích thương mại.
  • Dự án tận dụng công nghệ mới nhất để đạt hiệu năng nhanh hơn thời gian thực rất nhiều, đồng thời giúp dễ dàng thử nghiệm các tính năng nâng cao như voice cloning.
  • Dự án này đang phát triển theo định hướng cộng đồng, hướng tới mở rộng sang nhiều ngôn ngữ và tạo giọng nói có yếu tố cảm xúc, nên được kỳ vọng sẽ đóng vai trò quan trọng trong tương lai của công nghệ giọng nói.

1 bình luận

 
GN⁺ 2024-01-19
Ý kiến trên Hacker News
  • Dự án mô hình ASR đa ngôn ngữ Whisper

    • Mô hình ASR đa ngôn ngữ Whisper được huấn luyện trên lượng dữ liệu khổng lồ, nên đầu ra encoder thể hiện rất tốt nội dung ngữ nghĩa của giọng nói.
    • Encoder này có thể được dùng làm lựa chọn thay thế mã nguồn mở cho semantic encoder trong các kiến trúc mô hình như SPEAR-TTS/VALL-E.
    • Các acoustic token được dự đoán sẽ được vocoder Vocos upsampling/khử nhiễu/cải thiện.
    • Nút thắt cổ chai chính hiện nay là thiếu nhân lực cần thiết để thu thập và làm sạch bộ dữ liệu phù hợp.
  • Ý kiến của nhà phát triển WhisperSpeech

    • Dù đã làm việc rất chăm chỉ trong nhiều tháng để cải thiện mô hình, vẫn còn nhiều chỗ có thể tiếp tục nâng cấp.
    • Nhờ có tài trợ từ Collabora, đây là một dự án mã nguồn mở thực sự và họ muốn hỗ trợ những ai muốn cải thiện hoặc tích hợp nó.
    • Nếu muốn sử dụng cho mục đích kinh doanh, có thể mua hỗ trợ kỹ thuật.
  • Mối quan tâm về tổng hợp giọng nói tiếng Trung

    • Có sự quan tâm tới hiệu năng của tổng hợp giọng nói tiếng Trung, đặc biệt là về ngữ điệu và biểu đạt cảm xúc.
    • EmotiVoice là mô hình mã nguồn mở có chất lượng tốt nhất mà người này từng thấy cho đến nay, và họ đã tạo một CLI wrapper để dùng nó tạo audio cho flashcard.
    • Có thể dùng EmotiVoice để nhân bản giọng nói của chính mình bằng GPU, nhưng người này vẫn chưa thử.
  • Đề cập đến Mimic 3 của Mycroft

    • Mimic 3 của Mycroft không dùng công nghệ mới nhất nhưng vẫn rất ấn tượng, và đủ nhỏ để tạo giọng nói theo thời gian thực trên Raspberry Pi.
    • Một số giọng hay hơn những giọng khác, và đạt mức tương đương với các ví dụ của WhisperSpeech.
  • Câu hỏi về mô hình dựa trên Ký hiệu ngữ âm quốc tế (IPA)

    • Có câu hỏi về việc phát triển/tiến độ của mô hình dựa trên IPA.
    • Cách tiếp cận này có thể hữu ích để đổi giọng sang chất giọng khác hoặc hỗ trợ đa ngôn ngữ.
    • Với các mô hình như giọng MBROLA, có thể thực hiện ở mức hạn chế bằng cách ánh xạ âm vị của một ngôn ngữ sang âm vị của ngôn ngữ khác.
    • Cách tiếp cận IPA có thể giúp mô hình học tốt hơn về chất lượng giọng nói và sự thay đổi âm sắc.
  • Quan sát về huấn luyện giọng tùy chỉnh bằng Piper

    • Sau khi xem video huấn luyện giọng tùy chỉnh bằng Piper, người này nhận ra metadata cần cho bộ dữ liệu là phần văn bản tương ứng với các file audio nguồn.
    • Phương pháp huấn luyện của Collabora tự động hóa quy trình này và chỉ cần các file audio để huấn luyện.
  • Đánh giá mẫu tiếng Ba Lan

    • Mẫu tiếng Ba Lan rất hay, nghe như một bản thu sách nói.
  • Câu hỏi về khả năng điều chỉnh giọng nói

    • Có sự quan tâm tới mức độ có thể điều chỉnh giọng nói khi áp dụng TTS vào hệ thống chat.
    • Cần càng nhiều giọng khác nhau càng tốt để mỗi người dùng có thể có một giọng riêng.
  • Thắc mắc về bản demo được huấn luyện bằng clip chất lượng thấp của Winston Churchill

    • Có nghi ngờ kiểu “rác vào, rác ra” đối với bản demo được huấn luyện từ các đoạn audio chất lượng thấp.
  • Đánh giá tích cực về TTS

    • Đây là TTS hay nhất mà người này từng nghe, với giọng biến đổi giống con người.