Tổng quan về WhisperSpeech
- WhisperSpeech là một hệ thống text-to-speech mã nguồn mở được tạo ra bằng cách xây dựng ngược từ Whisper.
- Mô hình này được thiết kế để vừa mạnh mẽ vừa dễ tùy biến, đồng thời có thể sử dụng an toàn cho mục đích thương mại.
- Hiện tại mô hình được huấn luyện dựa trên bộ dữ liệu tiếng Anh LibreLight, và dự kiến sẽ hỗ trợ nhiều ngôn ngữ trong bản phát hành tiếp theo.
Cập nhật tiến độ [2024-01-18]
- Trong tuần vừa qua, dự án tập trung vào việc tối ưu hiệu năng suy luận.
- Nhờ tích hợp
torch.compile, bổ sung kv-caching và điều chỉnh một số layer, hệ thống hiện chạy nhanh hơn thời gian thực 12 lần trên GPU 4090 dành cho người dùng phổ thông.
- Đã bổ sung khả năng trộn nhiều ngôn ngữ trong một câu duy nhất.
- Cũng đã thêm cách để dễ dàng thử nghiệm voice cloning.
Cập nhật tiến độ [2024-01-10]
- Đã phát hành mô hình SD S2A mới tạo ra giọng nói nhanh hơn nhưng vẫn giữ chất lượng cao.
- Cũng đã bổ sung ví dụ voice cloning dựa trên tệp âm thanh tham chiếu.
Cập nhật tiến độ [2023-12-10]
- Đã bổ sung 3 mô hình mới hỗ trợ tiếng Anh và tiếng Ba Lan.
- Cung cấp các mẫu giọng nói mới và có thể thử trực tiếp trên Colab.
Tải xuống
- Khuyến nghị dùng liên kết Google Colab làm điểm khởi đầu hoặc chạy notebook được cung cấp trên máy cục bộ.
- Nếu muốn tải thủ công hoặc tự huấn luyện mô hình từ đầu, có thể dùng các mô hình WhisperSpeech đã tiền huấn luyện và bộ dữ liệu đã được chuyển đổi trên HuggingFace.
Lộ trình
- Thu thập bộ dữ liệu giọng nói cảm xúc lớn hơn
- Tìm cách điều khiển quá trình sinh theo cảm xúc và ngữ điệu
- Tạo ra nỗ lực cộng đồng nhằm thu thập giọng nói có thể tự do sử dụng ở nhiều ngôn ngữ khác nhau
- Huấn luyện mô hình đa ngôn ngữ hoàn chỉnh
Kiến trúc
- Có kiến trúc tổng quát tương tự AudioLM, SPEAR TTS và MusicGen.
- Được xây dựng dựa trên các mô hình mã nguồn mở mạnh mẽ: Whisper của OpenAI để tạo semantic token và phiên âm, EnCodec của Meta cho acoustic modeling, và Vocos của Charactr Inc làm vocoder chất lượng cao.
Lời cảm ơn
- Công trình này có được nhờ sự tài trợ của Collabora, LAION, Jülich Supercomputing Centre và sự hỗ trợ từ các cộng tác viên cá nhân.
Tư vấn
- Có thể cung cấp hỗ trợ cho các dự án AI mã nguồn mở và độc quyền.
Trích dẫn
- Dự án dựa trên nhiều dự án mã nguồn mở và bài báo nghiên cứu xuất sắc.
Ý kiến của GN⁺
- WhisperSpeech là một dự án mã nguồn mở đột phá trong lĩnh vực tổng hợp giọng nói, cung cấp mô hình text-to-speech mạnh mẽ hỗ trợ nhiều ngôn ngữ và an toàn cho mục đích thương mại.
- Dự án tận dụng công nghệ mới nhất để đạt hiệu năng nhanh hơn thời gian thực rất nhiều, đồng thời giúp dễ dàng thử nghiệm các tính năng nâng cao như voice cloning.
- Dự án này đang phát triển theo định hướng cộng đồng, hướng tới mở rộng sang nhiều ngôn ngữ và tạo giọng nói có yếu tố cảm xúc, nên được kỳ vọng sẽ đóng vai trò quan trọng trong tương lai của công nghệ giọng nói.
1 bình luận
Ý kiến trên Hacker News
Dự án mô hình ASR đa ngôn ngữ Whisper
Ý kiến của nhà phát triển WhisperSpeech
Mối quan tâm về tổng hợp giọng nói tiếng Trung
Đề cập đến Mimic 3 của Mycroft
Câu hỏi về mô hình dựa trên Ký hiệu ngữ âm quốc tế (IPA)
Quan sát về huấn luyện giọng tùy chỉnh bằng Piper
Đánh giá mẫu tiếng Ba Lan
Câu hỏi về khả năng điều chỉnh giọng nói
Thắc mắc về bản demo được huấn luyện bằng clip chất lượng thấp của Winston Churchill
Đánh giá tích cực về TTS