13 điểm bởi GN⁺ 2024-03-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Phương pháp sao chép giọng nói tức thì đa mục đích có thể tái tạo giọng của người nói chỉ từ một đoạn âm thanh tham chiếu ngắn và tạo giọng nói bằng nhiều ngôn ngữ
  • Có thể điều khiển tinh chỉnh phong cách giọng nói, tái tạo không chỉ cảm xúc, ngữ điệu, nhịp điệu, khoảng dừng và ngữ điệu mà cả âm sắc của người nói tham chiếu
  • Có thể sao chép giọng nói xuyên ngôn ngữ theo kiểu zero-shot ngay cả với những ngôn ngữ không có trong tập huấn luyện người nói quy mô lớn
  • Cung cấp hiệu năng vượt trội với chi phí tính toán thấp hơn hàng chục lần so với các API có sẵn dùng cho mục đích thương mại
  • Có thể tái tạo chính xác âm sắc tham chiếu và tạo giọng nói với nhiều ngôn ngữ và giọng địa phương khác nhau
  • Cho phép kiểm soát tinh chỉnh các tham số phong cách khác như nhịp điệu, khoảng dừng và ngữ điệu, bên cạnh cảm xúc và ngữ điệu

1 bình luận

 
GN⁺ 2024-03-30

Ý kiến trên Hacker News

  • Một người dùng Hacker News đã chia sẻ trải nghiệm của mình và giải thích cách chạy bản demo Gradio của OpenVoice trên máy cục bộ. Người này cho biết dùng RTX 3090 để tạo giọng nói nhanh hơn XTTS2, với mức sử dụng VRAM khoảng 1.5GB. Bản demo bị giới hạn ở 200 ký tự do cân nhắc tài nguyên, nhưng được cho là chạy nhanh gấp 8 lần thời gian thực. Ngoài ra, khi chỉnh sửa demo để thử với văn bản dài hơn, người này nói rằng đã render khoảng 1 phút âm thanh chỉ trong khoảng 4 giây. Họ đánh giá độ rõ của giọng tốt hơn XTTS2, nhưng vẫn hơi gượng và mang cảm giác như robot.

  • Một người dùng khác đặt câu hỏi về các trường hợp sử dụng có đạo đức của công nghệ sao chép giọng nói. Người này nêu ra các trường hợp sử dụng tiêu cực như nội dung khiêu dâm, đánh cắp danh tính, mạo danh, thay thế diễn viên lồng tiếng, chiếm dụng giọng nói của diễn viên lồng tiếng, và che giấu việc dùng bot trong hỗ trợ khách hàng. Tuy vậy, họ cũng thừa nhận có thể có các trường hợp sử dụng tích cực, như mang lại giọng nói thật cho những người đã mất giọng, nhưng cho rằng thị trường này không đủ lớn để biện minh cho mức đầu tư.

  • Có người chia sẻ rằng OpenVoice đang xếp hạng thấp thứ hai trên bảng xếp hạng cuộc thi Huggingface TTS. Người này nói rằng các lựa chọn thay thế như styletts2 và xtts2 có thứ hạng cao hơn OpenVoice rất nhiều.

  • Có người tỏ ra khó hiểu khi việc bắt chước giọng của Elon Musk được dùng làm bằng chứng về chất lượng. Theo họ, giọng của Musk vốn đã có xu hướng gượng và ngắt quãng, nên hoàn toàn có thể bắt chước những giọng tốt hơn.

  • Có người đưa tin rằng Voicecraft đã công khai các trọng số mô hình của họ.

  • Có người nhắc rằng họ không thể đạt được chất lượng sao chép giọng tương tự trên máy cục bộ khi so với các clip do trang web cung cấp. Họ đoán có thể mình đã làm sai điều gì đó.

  • Có người xác nhận từ GitHub rằng có thể chạy nó trên máy cục bộ, và đánh giá chất lượng là tốt.

  • Có người giải thích quá trình mã hóa giọng nói thành một biểu diễn tương tự IPA, rồi giải mã biểu diễn đó sang ngôn ngữ đích. Họ cũng nhắc đến việc trích xuất "âm sắc" và loại bỏ nó khỏi biểu diễn tương tự IPA, rồi thêm lại ở tầng đích. Nhờ đó, người dùng có thể nghe thấy chính giọng của mình nói bằng một ngôn ngữ khác với âm sắc tương tự. Người này tò mò rằng nếu mình học nói tiếng Trung thật trôi chảy, kết quả sẽ giống đến mức nào, và liệu có cần một "bộ dịch âm sắc" để chuyển âm sắc sang ngôn ngữ khác hay không.

  • Có người hỏi liệu ai có biết một mô hình "ngược lại" có thể nhận diện người nói trong các bản ghi nhiều người để thực hiện phân biệt người nói hay không.

  • Có người nhận xét rằng các công cụ sao chép giọng nói đều có đặc điểm "vocal fry", giống như một dạng "thung lũng kỳ lạ" nơi các sắc thái tinh tế của giọng nói không được khớp chính xác. Người này nói rằng các công cụ này vẫn chưa hoàn toàn thoát khỏi kiểu âm thở giống Microsoft Sam.