MetaVoice-1B - mô hình Text-To-Speech 1,2 tỷ tham số
(github.com/metavoiceio)- Mô hình TTS (chuyển văn bản thành giọng nói) với 1,2 tỷ tham số, được huấn luyện trên 100.000 giờ giọng nói
- Nhịp điệu và ngữ điệu nói giàu cảm xúc (tiếng Anh)
- Hỗ trợ voice cloning thông qua fine-tuning (với người nói Ấn Độ, đã thành công chỉ với khoảng 1 phút dữ liệu giọng nói)
- Với giọng Mỹ/Anh, có thể zero-shot cloning chỉ với 30 giây audio tham chiếu
- Hỗ trợ tổng hợp giọng nói dài
- Có thể sử dụng không giới hạn theo giấy phép Apache 2.0
Chưa có bình luận nào.