24 điểm bởi xguru 2025-02-14 | 2 bình luận | Chia sẻ qua WhatsApp
  • Mô hình Text-To-Speech open-weight được huấn luyện trên hơn 200.000 giờ dữ liệu giọng nói đa ngôn ngữ
  • Chất lượng giọng nói "tương đương hoặc vượt trội" so với các dịch vụ TTS thương mại và "mang lại khả năng biểu đạt tự nhiên"
  • Xuất giọng nói chất lượng cao với tốc độ lấy mẫu 44kHz
  • Hỗ trợ voice cloning: có thể sao chép chính xác phong cách của một người nói cụ thể chỉ với vài giây giọng nói tham chiếu
  • Nhiều tính năng điều chỉnh: có thể kiểm soát tốc độ nói, cao độ, chất lượng giọng nói và cảm xúc (vui, sợ hãi, buồn, tức giận, v.v.)

Tính năng chính

  • Zero-shot TTS và voice cloning
    • Chỉ cần nhập văn bản và một mẫu người nói dài 10~30 giây là có thể tổng hợp giọng nói chất lượng cao ngay lập tức
  • Hỗ trợ đầu vào audio prefix
    • Khi thêm audio prefix cùng với văn bản, có thể khớp người nói chính xác hơn
    • Hiệu quả trong việc tái hiện các kiểu giọng cụ thể như giọng thì thầm
  • Hỗ trợ đa ngôn ngữ
    • Hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp, tiếng Đức
  • Điều khiển cảm xúc và chất lượng giọng nói
    • Điều chỉnh cảm xúc: có thể thể hiện vui, giận dữ, buồn, sợ hãi, v.v.
    • Điều chỉnh giọng nói chi tiết: có thể tinh chỉnh tốc độ, cao độ, tần số tối đa và chất lượng âm thanh
  • Hiệu năng tốc độ cao
    • Có thể chạy ở tốc độ khoảng gấp 2 lần thời gian thực trên RTX 4090
  • Hỗ trợ Gradio WebUI
    • Cung cấp giao diện web đơn giản để bất kỳ ai cũng có thể dễ dàng tạo giọng nói
  • Cài đặt và triển khai đơn giản
    • Có thể dễ dàng cài đặt và triển khai bằng Docker

2 bình luận

 
mindok 2025-02-14

Tiếc là không có tiếng Hàn...

 
marantz 2025-02-19

Tiếng Hàn cũng hoạt động khá tốt. Tuy hơi hơi gượng một chút.