wav2vec-U: Nhận dạng giọng nói hiệu năng cao không cần supervision

(ai.facebook.com)

4 điểm bởi xguru 2021-05-24 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Framework nhận dạng giọng nói do nhóm Facebook AI xây dựng
Hỗ trợ nhận dạng nhiều ngôn ngữ mà không cần dữ liệu giọng nói đã chép lời (transcribed)

→ Đạt hiệu năng tương đương mô hình học có giám sát được huấn luyện với khoảng 1000 giờ dữ liệu giọng nói

→ Được thử nghiệm trên các ngôn ngữ như Swahili/Tatar, nơi không có nhiều dữ liệu giọng nói đã chép lời

→ Chia các bản ghi âm thành các đơn vị lời nói tương ứng lỏng với từng âm thanh

→ cat bao gồm ba âm "/K/", "/AE/", "/T/"

→ Được huấn luyện bằng GAN gồm generator và discriminator

Bài viết liên quan