wav2vec-U: Nhận dạng giọng nói hiệu năng cao không cần supervision
(ai.facebook.com)-
Framework nhận dạng giọng nói do nhóm Facebook AI xây dựng
-
Hỗ trợ nhận dạng nhiều ngôn ngữ mà không cần dữ liệu giọng nói đã chép lời (transcribed)
→ Đạt hiệu năng tương đương mô hình học có giám sát được huấn luyện với khoảng 1000 giờ dữ liệu giọng nói
→ Được thử nghiệm trên các ngôn ngữ như Swahili/Tatar, nơi không có nhiều dữ liệu giọng nói đã chép lời
- Hoạt động theo cách học cấu trúc của audio chưa được gán nhãn
→ Chia các bản ghi âm thành các đơn vị lời nói tương ứng lỏng với từng âm thanh
→ cat bao gồm ba âm "/K/", "/AE/", "/T/"
→ Được huấn luyện bằng GAN gồm generator và discriminator
- Đã công bố mã nguồn và bài báo
Chưa có bình luận nào.