MetaVoice-1B - mô hình Text-To-Speech 1,2 tỷ tham số

xguru · 2024-02-10T10:16:01+09:00

Mô hình TTS (chuyển văn bản thành giọng nói) với 1,2 tỷ tham số, được huấn luyện trên 100.000 giờ giọng nói Nhịp điệu và ngữ điệu nói giàu cảm xúc (tiếng Anh) Hỗ trợ voice cloning thông qua fine-tuning (với người nói Ấn Độ, đã thành công chỉ với khoảng 1 phút dữ liệu giọng nói) Với giọng Mỹ/Anh, có thể zero-shot cloning chỉ với 30 giây audio tham chiếu Hỗ trợ tổng hợp giọng nói dài Có thể sử dụng không giới hạn theo giấy phép Apache 2.0

(github.com/metavoiceio)

12 điểm bởi xguru 2024-02-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Mô hình TTS (chuyển văn bản thành giọng nói) với 1,2 tỷ tham số, được huấn luyện trên 100.000 giờ giọng nói
Nhịp điệu và ngữ điệu nói giàu cảm xúc (tiếng Anh)
Hỗ trợ voice cloning thông qua fine-tuning (với người nói Ấn Độ, đã thành công chỉ với khoảng 1 phút dữ liệu giọng nói)
Với giọng Mỹ/Anh, có thể zero-shot cloning chỉ với 30 giây audio tham chiếu
Hỗ trợ tổng hợp giọng nói dài
Có thể sử dụng không giới hạn theo giấy phép Apache 2.0

MetaVoice-1B - mô hình Text-To-Speech 1,2 tỷ tham số

Bài viết liên quan

Chưa có bình luận nào.