MMS - Dự án công nghệ giọng nói cho hơn 1000 ngôn ngữ do Meta công bố

xguru · 2023-05-24T09:45:01+09:00

Massively Multilingual Speech Một dự án nhằm tạo ra một mô hình giọng nói duy nhất hỗ trợ hàng nghìn ngôn ngữ, hướng tới hơn 7000 ngôn ngữ đang được sử dụng trên Trái Đất, vượt xa các mô hình nhận dạng giọng nói hiện tại vốn chỉ hỗ trợ khoảng 100 ngôn ngữ Cung cấp hơn 1100 mô hình nhận dạng giọng nói đa ngôn ngữ (ASR) và mô hình tổng hợp giọng nói (TTS), hơn 4000 mô hình nhận diện ngôn ngữ (LID), cùng hơn 1400 mô hình tiền huấn luyện ngôn ngữ Mục tiêu là giúp mọi người có thể truy cập và sử dụng thông tin bằng ngôn ngữ họ mong muốn ngay trên thiết bị Là một phần của dự án, Meta đã xây dựng bộ dữ liệu đọc Tân Ước với thời lượng trung bình 32 giờ cho mỗi ngôn ngữ trên 1100 ngôn ngữ, đồng thời mở rộng số ngôn ngữ khả dụng lên 4000 bằng cách sử dụng nhiều bản ghi âm tài liệu Cơ Đốc giáo không gắn nhãn Các tệp mô hình có thể tải xuống Mô hình pretrained: MMS-300M (3.5GB) và MMS-1B (10GB) Công bố mô hình nhận dạng giọng nói ASR và từ điển: MMS-1B:FL102 (102 ngôn ngữ, 4.5GB), MMS-1B:L1107 (1107 ngôn ngữ, 13GB), MMS-1B-all (1162 ngôn ngữ, 13.7GB) Mô hình tổng hợp giọng nói TTS: tệp generator và vocabulary cho từng ngôn ngữ trong 1107 ngôn ngữ Mô hình nhận diện ngôn ngữ LID: 126, 256, 512, 1024, 2048, 4017 mô hình và từ điển

(github.com/facebookresearch)

16 điểm bởi xguru 2023-05-24 | 3 bình luận | Chia sẻ qua WhatsApp

Massively Multilingual Speech
Một dự án nhằm tạo ra một mô hình giọng nói duy nhất hỗ trợ hàng nghìn ngôn ngữ, hướng tới hơn 7000 ngôn ngữ đang được sử dụng trên Trái Đất, vượt xa các mô hình nhận dạng giọng nói hiện tại vốn chỉ hỗ trợ khoảng 100 ngôn ngữ
Cung cấp hơn 1100 mô hình nhận dạng giọng nói đa ngôn ngữ (ASR) và mô hình tổng hợp giọng nói (TTS), hơn 4000 mô hình nhận diện ngôn ngữ (LID), cùng hơn 1400 mô hình tiền huấn luyện ngôn ngữ
Mục tiêu là giúp mọi người có thể truy cập và sử dụng thông tin bằng ngôn ngữ họ mong muốn ngay trên thiết bị
Là một phần của dự án, Meta đã xây dựng bộ dữ liệu đọc Tân Ước với thời lượng trung bình 32 giờ cho mỗi ngôn ngữ trên 1100 ngôn ngữ, đồng thời mở rộng số ngôn ngữ khả dụng lên 4000 bằng cách sử dụng nhiều bản ghi âm tài liệu Cơ Đốc giáo không gắn nhãn

Các tệp mô hình có thể tải xuống

Mô hình pretrained: MMS-300M (3.5GB) và MMS-1B (10GB)
Công bố mô hình nhận dạng giọng nói ASR và từ điển: MMS-1B:FL102 (102 ngôn ngữ, 4.5GB), MMS-1B:L1107 (1107 ngôn ngữ, 13GB), MMS-1B-all (1162 ngôn ngữ, 13.7GB)
Mô hình tổng hợp giọng nói TTS: tệp generator và vocabulary cho từng ngôn ngữ trong 1107 ngôn ngữ
Mô hình nhận diện ngôn ngữ LID: 126, 256, 512, 1024, 2048, 4017 mô hình và từ điển

3 bình luận

kuroneko 2023-05-24

Dạo này có khá nhiều mô hình nhận dạng giọng nói hoặc TTS đang ra mắt.
Có lẽ ngày mà hiệu năng của lĩnh vực này tăng mạnh cũng không còn xa nữa.

Nhưng nếu là tín đồ Cơ Đốc giáo thì tỷ lệ nhận dạng giọng nói có tăng lên không? 🤔

koyokr 2023-05-24

haha

cosine20 2023-05-24

......

MMS - Dự án công nghệ giọng nói cho hơn 1000 ngôn ngữ do Meta công bố

Các tệp mô hình có thể tải xuống

Bài viết liên quan

3 bình luận