- Mô hình Text-To-Speech open-weight được huấn luyện trên hơn 200.000 giờ dữ liệu giọng nói đa ngôn ngữ
- Chất lượng giọng nói "tương đương hoặc vượt trội" so với các dịch vụ TTS thương mại và "mang lại khả năng biểu đạt tự nhiên"
- Xuất giọng nói chất lượng cao với tốc độ lấy mẫu 44kHz
- Hỗ trợ voice cloning: có thể sao chép chính xác phong cách của một người nói cụ thể chỉ với vài giây giọng nói tham chiếu
- Nhiều tính năng điều chỉnh: có thể kiểm soát tốc độ nói, cao độ, chất lượng giọng nói và cảm xúc (vui, sợ hãi, buồn, tức giận, v.v.)
Tính năng chính
- Zero-shot TTS và voice cloning
- Chỉ cần nhập văn bản và một mẫu người nói dài 10~30 giây là có thể tổng hợp giọng nói chất lượng cao ngay lập tức
- Hỗ trợ đầu vào audio prefix
- Khi thêm audio prefix cùng với văn bản, có thể khớp người nói chính xác hơn
- Hiệu quả trong việc tái hiện các kiểu giọng cụ thể như giọng thì thầm
- Hỗ trợ đa ngôn ngữ
- Hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp, tiếng Đức
- Điều khiển cảm xúc và chất lượng giọng nói
- Điều chỉnh cảm xúc: có thể thể hiện vui, giận dữ, buồn, sợ hãi, v.v.
- Điều chỉnh giọng nói chi tiết: có thể tinh chỉnh tốc độ, cao độ, tần số tối đa và chất lượng âm thanh
- Hiệu năng tốc độ cao
- Có thể chạy ở tốc độ khoảng gấp 2 lần thời gian thực trên RTX 4090
- Hỗ trợ Gradio WebUI
- Cung cấp giao diện web đơn giản để bất kỳ ai cũng có thể dễ dàng tạo giọng nói
- Cài đặt và triển khai đơn giản
- Có thể dễ dàng cài đặt và triển khai bằng Docker
2 bình luận
Tiếc là không có tiếng Hàn...
Tiếng Hàn cũng hoạt động khá tốt. Tuy hơi hơi gượng một chút.