16 điểm bởi xguru 2023-05-24 | 3 bình luận | Chia sẻ qua WhatsApp
  • Massively Multilingual Speech
  • Một dự án nhằm tạo ra một mô hình giọng nói duy nhất hỗ trợ hàng nghìn ngôn ngữ, hướng tới hơn 7000 ngôn ngữ đang được sử dụng trên Trái Đất, vượt xa các mô hình nhận dạng giọng nói hiện tại vốn chỉ hỗ trợ khoảng 100 ngôn ngữ
  • Cung cấp hơn 1100 mô hình nhận dạng giọng nói đa ngôn ngữ (ASR) và mô hình tổng hợp giọng nói (TTS), hơn 4000 mô hình nhận diện ngôn ngữ (LID), cùng hơn 1400 mô hình tiền huấn luyện ngôn ngữ
  • Mục tiêu là giúp mọi người có thể truy cập và sử dụng thông tin bằng ngôn ngữ họ mong muốn ngay trên thiết bị
  • Là một phần của dự án, Meta đã xây dựng bộ dữ liệu đọc Tân Ước với thời lượng trung bình 32 giờ cho mỗi ngôn ngữ trên 1100 ngôn ngữ, đồng thời mở rộng số ngôn ngữ khả dụng lên 4000 bằng cách sử dụng nhiều bản ghi âm tài liệu Cơ Đốc giáo không gắn nhãn

Các tệp mô hình có thể tải xuống

  • Mô hình pretrained: MMS-300M (3.5GB) và MMS-1B (10GB)
  • Công bố mô hình nhận dạng giọng nói ASR và từ điển: MMS-1B:FL102 (102 ngôn ngữ, 4.5GB), MMS-1B:L1107 (1107 ngôn ngữ, 13GB), MMS-1B-all (1162 ngôn ngữ, 13.7GB)
  • Mô hình tổng hợp giọng nói TTS: tệp generator và vocabulary cho từng ngôn ngữ trong 1107 ngôn ngữ
  • Mô hình nhận diện ngôn ngữ LID: 126, 256, 512, 1024, 2048, 4017 mô hình và từ điển

3 bình luận

 
kuroneko 2023-05-24

Dạo này có khá nhiều mô hình nhận dạng giọng nói hoặc TTS đang ra mắt.
Có lẽ ngày mà hiệu năng của lĩnh vực này tăng mạnh cũng không còn xa nữa.

Nhưng nếu là tín đồ Cơ Đốc giáo thì tỷ lệ nhận dạng giọng nói có tăng lên không? 🤔

 
koyokr 2023-05-24

haha

 
cosine20 2023-05-24

......