VALL-E - Mô hình ngôn ngữ cho tổng hợp giọng nói do Microsoft tạo ra

xguru · 2023-01-10T10:24:40+09:00

Mô hình Text-to-Speech dựa trên Transformer Chỉ cần 3 giây của bất kỳ giọng nói nào là có thể tổng hợp bằng chính giọng đó Tự nhiên hơn nhiều, giống người nói hơn so với các Zero-shot TTS mới nhất, đồng thời vẫn giữ được cảm xúc của người nói và môi trường âm thanh Pipeline trước đây là phoneme (âm vị) → mel-spectrogram → waveform, còn VALL-E là phoneme → discrete code → waveform Có thể kết hợp với nhiều ứng dụng tổng hợp giọng nói khác nhau và các mô hình AI như GPT-3

(valle-demo.github.io)

17 điểm bởi xguru 2023-01-10 | 3 bình luận | Chia sẻ qua WhatsApp

Mô hình Text-to-Speech dựa trên Transformer
Chỉ cần 3 giây của bất kỳ giọng nói nào là có thể tổng hợp bằng chính giọng đó
Tự nhiên hơn nhiều, giống người nói hơn so với các Zero-shot TTS mới nhất, đồng thời vẫn giữ được cảm xúc của người nói và môi trường âm thanh
Pipeline trước đây là phoneme (âm vị) → mel-spectrogram → waveform, còn
VALL-E là phoneme → discrete code → waveform
Có thể kết hợp với nhiều ứng dụng tổng hợp giọng nói khác nhau và các mô hình AI như GPT-3

3 bình luận

openmind 2023-01-10

Có vẻ như nhờ sự phát triển của machine learning mà rào cản để tiếp cận công nghệ TTS cũng đã thấp hơn. Nếu tìm trong các kho mã nguồn mở thì thậm chí còn có thể tự ghi âm giọng nói của mình để tạo một TTS tự chế dùng chính giọng của mình nữa.

jjpark78 2023-01-10

Giờ thì dạng sóng giọng nói không còn có thể dùng để nhận diện cá nhân như dấu vân tay nữa rồi. -_-;

Tôi nhớ như từng nghe đâu đó rằng khi nghe lén, người ta dùng một mẫu giọng của một người cụ thể trên máy chủ quy mô lớn để hệ thống phản ứng với các từ khóa nhất định trong mẫu giọng đó...

Nếu có thể tổng hợp được đến mức này thì mấy hệ thống như vậy giờ cũng coi như đi tong rồi...

xguru 2023-01-10

VALL-E - Mô hình ngôn ngữ cho tổng hợp giọng nói do Microsoft tạo ra

Bài viết liên quan

3 bình luận