- Đang triển khai "Sáng kiến 1.000 ngôn ngữ" bắt đầu từ tháng 11 năm ngoái (xây dựng mô hình machine learning hỗ trợ 1.000 ngôn ngữ)
- Hiện tại, USM được huấn luyện với 2B (2 tỷ) tham số, hơn 300 ngôn ngữ, 12 triệu giờ thoại và 28 tỷ câu
- Được sử dụng trên YouTube để tạo phụ đề. Không chỉ tiếng Anh/tiếng Trung mà còn hỗ trợ cả các ngôn ngữ như Amharic, Cebuano, Assamese, Azerbaijani
- Hai thách thức quan trọng để đạt được mục tiêu
- Các phương pháp học có giám sát hiện có thiếu khả năng mở rộng
- Tạo mô hình hiệu quả để tăng số lượng ngôn ngữ
- Cách tiếp cận: Self-supervised learning with fine-tuning (học tự giám sát với tinh chỉnh)
- Đã công bố bài báo và API (chỉ nhà nghiên cứu mới có thể đăng ký)
1 bình luận
Tôi nghĩ đây là một công nghệ tốt, giúp các ngôn ngữ và phương ngữ đang dần biến mất vẫn có thể được các thế hệ sau sử dụng.