Mozilla Common Voice
(voice.mozilla.org)Cơ sở dữ liệu giọng nói mã nguồn mở thu thập và tinh lọc dữ liệu của nhiều ngôn ngữ để tạo ra và phổ cập công nghệ nhận dạng giọng nói mà bất kỳ ai cũng có thể sử dụng.
Hiện dữ liệu tiếng Hàn vẫn còn rất thiếu. Hãy tham gia để cùng nhau xây dựng.
Phần lớn các bộ dữ liệu giọng nói do các công ty tạo ra đều khó sử dụng từ bên ngoài.
Vì vậy, dữ liệu được xây dựng theo hướng mở là rất quan trọng. Đặc biệt với tiếng Hàn thì điều đó càng quan trọng hơn.
7 bình luận
Ở phần thiết lập Goal không có tiếng Hàn nên không thể tiếp tục..
Hóa ra bộ dữ liệu tiếng Hàn vẫn chưa làm được vì còn thiếu bản địa hóa trang câu và cả bộ câu.
Bản dịch tiếng Hàn của trang: https://pontoon.mozilla.org/projects/common-voice/
Trang thu thập câu: https://common-voice.github.io/sentence-collector
Có vẻ như chỉ sau khi việc dịch trang hoàn tất và thu thập được hơn 5000 câu thì mới có thể thu thập và xác minh giọng nói. Mong những ai quan tâm tích cực tham gia.
Tôi cũng đã đăng rồi lại xóa đúng y hệt bình luận đó haha
https://discourse.mozilla.org/t/…
Ở đây có giải thích như vậy đấy.
Á.. vâng hihi tôi cũng định xóa mà vì không có nút xóa nên đã hơi bối rối..
Liên quan đến việc này thì có khá nhiều corpus tiếng Hàn, nhưng vì vấn đề bản quyền nên tôi không biết có thể đăng lên hay không.
À, để xóa bình luận thì bạn hãy nhấn vào liên kết thời gian cạnh ID phía trên bình luận, rồi trong trang bình luận đó bạn có thể xóa được.
Trong số các mã nguồn mở nhận dạng giọng nói tiếng Hàn đã được công khai trước đây, cũng có dự án Zeroth sử dụng Kaldi.
(Theо nội dung trên GitHub thì có vẻ mô hình cuối cùng là bản tháng 7 năm 2018.)
https://github.com/goodatlas/zeroth