12 điểm bởi xguru 2024-02-10 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Mô hình TTS (chuyển văn bản thành giọng nói) với 1,2 tỷ tham số, được huấn luyện trên 100.000 giờ giọng nói
  • Nhịp điệu và ngữ điệu nói giàu cảm xúc (tiếng Anh)
  • Hỗ trợ voice cloning thông qua fine-tuning (với người nói Ấn Độ, đã thành công chỉ với khoảng 1 phút dữ liệu giọng nói)
  • Với giọng Mỹ/Anh, có thể zero-shot cloning chỉ với 30 giây audio tham chiếu
  • Hỗ trợ tổng hợp giọng nói dài
  • Có thể sử dụng không giới hạn theo giấy phép Apache 2.0

Chưa có bình luận nào.

Chưa có bình luận nào.