Google Universal Speech Model - mô hình dành cho nhận dạng giọng nói ở mọi ngôn ngữ

xguru · 2023-03-31T10:02:02+09:00

Mô hình 2 tỷ tham số được huấn luyện với 12 triệu giờ giọng nói, 28 tỷ câu và 300 ngôn ngữ Có thể thực hiện nhận dạng giọng nói cho mọi ngôn ngữ, từ các ngôn ngữ phổ biến đến các ngôn ngữ thiểu số Bao gồm cả những ngôn ngữ có dưới 20 triệu người sử dụng nên rất khó tìm dữ liệu huấn luyện Kết quả đánh giá trên các video YouTube cho thấy tỷ lệ lỗi từ thấp hơn Whisper(OpenAI)

(sites.research.google)

17 điểm bởi xguru 2023-03-31 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình 2 tỷ tham số được huấn luyện với 12 triệu giờ giọng nói, 28 tỷ câu và 300 ngôn ngữ
Có thể thực hiện nhận dạng giọng nói cho mọi ngôn ngữ, từ các ngôn ngữ phổ biến đến các ngôn ngữ thiểu số
- Bao gồm cả những ngôn ngữ có dưới 20 triệu người sử dụng nên rất khó tìm dữ liệu huấn luyện
Kết quả đánh giá trên các video YouTube cho thấy tỷ lệ lỗi từ thấp hơn Whisper(OpenAI)

1 bình luận

xguru 2023-03-31

Whisper - Hệ thống nhận dạng giọng nói đa ngôn ngữ (ASR) được OpenAI công bố mã nguồn mở
OpenAI công bố mô hình Whisper v2

Dù hiệu năng được nói là tốt, họ chỉ công bố bài báo và API. Có vẻ như Whisper được phát hành mã nguồn mở vẫn hữu dụng hơn ở thời điểm hiện tại.

Google Universal Speech Model - mô hình dành cho nhận dạng giọng nói ở mọi ngôn ngữ

Bài viết liên quan

1 bình luận