VALL-E - Mô hình ngôn ngữ cho tổng hợp giọng nói do Microsoft tạo ra
(valle-demo.github.io)- Mô hình Text-to-Speech dựa trên Transformer
- Chỉ cần 3 giây của bất kỳ giọng nói nào là có thể tổng hợp bằng chính giọng đó
- Tự nhiên hơn nhiều, giống người nói hơn so với các Zero-shot TTS mới nhất, đồng thời vẫn giữ được cảm xúc của người nói và môi trường âm thanh
- Pipeline trước đây là phoneme (âm vị) → mel-spectrogram → waveform, còn
VALL-E là phoneme → discrete code → waveform - Có thể kết hợp với nhiều ứng dụng tổng hợp giọng nói khác nhau và các mô hình AI như GPT-3
3 bình luận
Có vẻ như nhờ sự phát triển của machine learning mà rào cản để tiếp cận công nghệ TTS cũng đã thấp hơn. Nếu tìm trong các kho mã nguồn mở thì thậm chí còn có thể tự ghi âm giọng nói của mình để tạo một TTS tự chế dùng chính giọng của mình nữa.
Giờ thì dạng sóng giọng nói không còn có thể dùng để nhận diện cá nhân như dấu vân tay nữa rồi. -_-;
Tôi nhớ như từng nghe đâu đó rằng khi nghe lén, người ta dùng một mẫu giọng của một người cụ thể trên máy chủ quy mô lớn để hệ thống phản ứng với các từ khóa nhất định trong mẫu giọng đó...
Nếu có thể tổng hợp được đến mức này thì mấy hệ thống như vậy giờ cũng coi như đi tong rồi...