Google Universal Speech Model - mô hình dành cho nhận dạng giọng nói ở mọi ngôn ngữ
(sites.research.google)- Mô hình 2 tỷ tham số được huấn luyện với 12 triệu giờ giọng nói, 28 tỷ câu và 300 ngôn ngữ
- Có thể thực hiện nhận dạng giọng nói cho mọi ngôn ngữ, từ các ngôn ngữ phổ biến đến các ngôn ngữ thiểu số
- Bao gồm cả những ngôn ngữ có dưới 20 triệu người sử dụng nên rất khó tìm dữ liệu huấn luyện
- Kết quả đánh giá trên các video YouTube cho thấy tỷ lệ lỗi từ thấp hơn Whisper(OpenAI)
1 bình luận
Whisper - Hệ thống nhận dạng giọng nói đa ngôn ngữ (ASR) được OpenAI công bố mã nguồn mở
OpenAI công bố mô hình Whisper v2
Dù hiệu năng được nói là tốt, họ chỉ công bố bài báo và API. Có vẻ như Whisper được phát hành mã nguồn mở vẫn hữu dụng hơn ở thời điểm hiện tại.