Zonos - Mô hình tổng hợp giọng nói open-weight chất lượng cao

xguru · 2025-02-14T10:23:01+09:00

Mô hình Text-To-Speech open-weight được huấn luyện trên hơn 200.000 giờ dữ liệu giọng nói đa ngôn ngữ Chất lượng giọng nói "tương đương hoặc vượt trội" so với các dịch vụ TTS thương mại và "mang lại khả năng biểu đạt tự nhiên" Xuất giọng nói chất lượng cao với tốc độ lấy mẫu 44kHz Hỗ trợ voice cloning: có thể sao chép chính xác phong cách của một người nói cụ thể chỉ với vài giây giọng nói tham chiếu Nhiều tính năng điều chỉnh: có thể kiểm soát tốc độ nói, cao độ, chất lượng giọng nói và cảm xúc (vui, sợ hãi, buồn, tức giận, v.v.) Tính năng chính Zero-shot TTS và voice cloning Chỉ cần nhập văn bản và một mẫu người nói dài 10~30 giây là có thể tổng hợp giọng nói chất lượng cao ngay lập tức Hỗ trợ đầu vào audio prefix Khi thêm audio prefix cùng với văn bản, có thể khớp người nói chính xác hơn Hiệu quả trong việc tái hiện các kiểu giọng cụ thể như giọng thì thầm Hỗ trợ đa ngôn ngữ Hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp, tiếng Đức Điều khiển cảm xúc và chất lượng giọng nói Điều chỉnh cảm xúc: có thể thể hiện vui, giận dữ, buồn, sợ hãi, v.v. Điều chỉnh giọng nói chi tiết: có thể tinh chỉnh tốc độ, cao độ, tần số tối đa và chất lượng âm thanh Hiệu năng tốc độ cao Có thể chạy ở tốc độ khoảng gấp 2 lần thời gian thực trên RTX 4090 Hỗ trợ Gradio WebUI Cung cấp giao diện web đơn giản để bất kỳ ai cũng có thể dễ dàng tạo giọng nói Cài đặt và triển khai đơn giản Có thể dễ dàng cài đặt và triển khai bằng Docker

(github.com/Zyphra)

24 điểm bởi xguru 2025-02-14 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình Text-To-Speech open-weight được huấn luyện trên hơn 200.000 giờ dữ liệu giọng nói đa ngôn ngữ
Chất lượng giọng nói "tương đương hoặc vượt trội" so với các dịch vụ TTS thương mại và "mang lại khả năng biểu đạt tự nhiên"
Xuất giọng nói chất lượng cao với tốc độ lấy mẫu 44kHz
Hỗ trợ voice cloning: có thể sao chép chính xác phong cách của một người nói cụ thể chỉ với vài giây giọng nói tham chiếu
Nhiều tính năng điều chỉnh: có thể kiểm soát tốc độ nói, cao độ, chất lượng giọng nói và cảm xúc (vui, sợ hãi, buồn, tức giận, v.v.)

Tính năng chính

Zero-shot TTS và voice cloning
- Chỉ cần nhập văn bản và một mẫu người nói dài 10~30 giây là có thể tổng hợp giọng nói chất lượng cao ngay lập tức
Hỗ trợ đầu vào audio prefix
- Khi thêm audio prefix cùng với văn bản, có thể khớp người nói chính xác hơn
- Hiệu quả trong việc tái hiện các kiểu giọng cụ thể như giọng thì thầm
Hỗ trợ đa ngôn ngữ
- Hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp, tiếng Đức
Điều khiển cảm xúc và chất lượng giọng nói
- Điều chỉnh cảm xúc: có thể thể hiện vui, giận dữ, buồn, sợ hãi, v.v.
- Điều chỉnh giọng nói chi tiết: có thể tinh chỉnh tốc độ, cao độ, tần số tối đa và chất lượng âm thanh
Hiệu năng tốc độ cao
- Có thể chạy ở tốc độ khoảng gấp 2 lần thời gian thực trên RTX 4090
Hỗ trợ Gradio WebUI
- Cung cấp giao diện web đơn giản để bất kỳ ai cũng có thể dễ dàng tạo giọng nói
Cài đặt và triển khai đơn giản
- Có thể dễ dàng cài đặt và triển khai bằng Docker

2 bình luận

mindok 2025-02-14

Tiếc là không có tiếng Hàn...

marantz 2025-02-19

Tiếng Hàn cũng hoạt động khá tốt. Tuy hơi hơi gượng một chút.

Zonos - Mô hình tổng hợp giọng nói open-weight chất lượng cao

Tính năng chính

Bài viết liên quan

2 bình luận