Mozilla Common Voice, nền tảng bộ dữ liệu giọng nói dựa trên cộng đồng

(commonvoice.mozilla.org)

1 điểm bởi GN⁺ 2023-12-08 | 1 bình luận | Chia sẻ qua WhatsApp

Mozilla Common Voice là một nền tảng mã nguồn mở miễn phí, nơi cộng đồng trực tiếp tạo và chia sẻ bộ dữ liệu văn bản·giọng nói, giúp công nghệ giọng nói có thể được sử dụng trong nhiều ngôn ngữ hơn
Người đóng góp có thể tham gia vào dữ liệu Scripted Speech, Spontaneous Speech, và Language Text thông qua việc đọc câu, xác thực bản đọc, trả lời câu hỏi, chép lời giọng nói và thêm văn bản
Nền tảng hỗ trợ cộng đồng của hơn 290 ngôn ngữ, và các bộ dữ liệu giọng nói công khai được cung cấp bằng hơn 130 ngôn ngữ
Bộ dữ liệu có thể được sử dụng cho ASR, STT, TTS và các mục đích NLP khác; các bản phát hành mới có thể được tải xuống từ Mozilla Data Collective
Người đăng ký Mozilla Data Collective có thể truy cập hơn 500 bộ dữ liệu toàn cầu do cộng đồng tạo và sử dụng, cho thấy trọng tâm của việc thu thập và chia sẻ dữ liệu ngôn ngữ đang chuyển về phía đó

Common Voice đang cố giải quyết điều gì

Mozilla Common Voice là một nền tảng tạo dữ liệu do cộng đồng dẫn dắt
Bất kỳ ai cũng có thể chia sẻ, tạo và tuyển chọn các bộ dữ liệu văn bản và giọng nói để bảo tồn, phục hồi và mở rộng ngôn ngữ của mình
Mục tiêu là để AI không chỉ hoạt động với một số ngôn ngữ nhất định, mà để mọi người trực tiếp tạo ra những bộ dữ liệu ngôn ngữ mà họ cần
Common Voice được vận hành bởi các cộng đồng trên khắp thế giới và đang mở rộng sang hơn 290 ngôn ngữ

Cách đóng góp và cách sử dụng bộ dữ liệu

Scripted Speech
- Người dùng có thể đóng góp giọng nói bằng ngôn ngữ của mình vào bộ dữ liệu tham gia công khai thông qua đọc câu
- Những người dùng khác có thể xác thực bản đọc tại Validate Readings
Spontaneous Speech
- Người dùng trả lời các prompt để tạo bộ dữ liệu với ngữ cảnh tự nhiên và khẩu ngữ
- Có thể được sử dụng theo cách phù hợp với các ngôn ngữ ưu tiên lời nói
- Có thể tham gia công việc chép lời thông qua Transcribe answers và tính năng review
Language Text
- Có thể tạo hoặc chia sẻ các prompt, câu và văn bản thuộc phạm vi công cộng
- Có thể dùng cho dịch thuật, mô hình ngôn ngữ nhỏ và các mục đích khác
- Các bản phát hành mới được cung cấp tại Mozilla Data Collective, và khi đăng ký có thể truy cập hơn 500 bộ dữ liệu toàn cầu
- Tại Explore datasets, có thể xem các bộ dữ liệu giọng nói công khai của hơn 130 ngôn ngữ được dùng trong các ngữ cảnh ASR, STT, TTS và NLP khác
- Đối tượng đối tác được chia thành xã hội dân sự và nhà nghiên cứu, doanh nghiệp công nghệ, và tổ chức từ thiện
- Xã hội dân sự và nhà nghiên cứu có thể tạo, lưu trữ và chia sẻ miễn phí các bộ dữ liệu có tác động
- Doanh nghiệp công nghệ có thể đầu tư vào việc tạo bộ dữ liệu mở cho hệ sinh thái AI đa ngôn ngữ
- Tổ chức từ thiện có thể tài trợ việc tạo bộ dữ liệu cho đổi mới và phát triển địa phương

1 bình luận

GN⁺ 2023-12-08

Ý kiến trên Hacker News

TTS của Firefox là một dự án quan trọng với những ai cần một hệ thống chuyển văn bản thành giọng nói có thể dùng đơn giản
Vì được tích hợp sẵn trong trình duyệt, chỉ cần chạy window.speechSynthesis và SpeechSynthesisUtterance trong console là có thể nghe ngay nhiều ví dụ giọng nói
Tùy trình duyệt, nó có thể hoạt động offline hoặc dùng TTS dựa trên đám mây
- Trên macOS có thể dùng say "enter text here"; để chọn giọng khác thì dùng say -v Fred "enter text here", còn danh sách giọng có thể xem bằng say -v "?"
  Cần đặt ? trong dấu ngoặc kép để ZSH không diễn giải nó thành glob
  Dù nói TTS của Firefox quan trọng, trước bình luận này tôi thậm chí còn không biết nó tồn tại; những tính năng như vậy cần dễ được phát hiện hơn và có API dễ tiếp cận hơn
- speechSynthesis có vẻ được hỗ trợ không chỉ trên Firefox mà trên hầu hết các trình duyệt lớn: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- Vài ngày trước tôi đã dùng thử Common Voice, và thấy các ví dụ về trang cộng đồng dành cho những người muốn hỗ trợ một ngôn ngữ cụ thể khá hay
  Tôi cũng đang nghĩ rằng Firefox rất nhanh và đáng để quay lại dùng; nếu coi trọng một trình duyệt độc lập chú trọng quyền riêng tư, bảo mật và tính độc lập, thì ngay cả những người hay đổi trình duyệt nhẹ nhàng cũng nên thử Firefox
  Tôi hài lòng vì có thể dùng lại một vài tiện ích Firefox vốn không hoạt động y như vậy trên các trình duyệt dựa trên Chrome
- Khi debug, với những thông báo quan trọng không được bỏ lỡ, tôi từng cho chúng phát ra qua giọng TTS miễn phí của Windows bằng PowerShell, hoặc gọi qua WebSocket trong Chrome, ngoài việc ghi ra stderr, và việc đó khá thú vị
  Có thêm nhiều giọng để chọn là điều tốt
- Tôi tò mò liệu thứ này từng được tách thành một thư viện độc lập chưa
  Tình trạng TTS mã nguồn mở có vẻ không tốt lắm, và dữ liệu cần cho một giọng nói dường như còn khó chuẩn bị hơn so với dữ liệu để huấn luyện các hệ thống nhận dạng giọng nói như Whisper
Common Voice Android cũng đáng được giới thiệu: https://github.com/Sav22999/common-voice-android
Đây là một ứng dụng tiện lợi cho những ai muốn đóng góp cho dự án; bạn có thể ghi âm bằng các ngôn ngữ mình nói được hoặc xác minh đóng góp của người dùng khác
Khoảng 2 năm trước tôi thường xuyên đóng góp, và thiết kế của nó dễ dùng hơn nhiều so với website chính thức
Cũng có kênh Matrix chính thức của Common Voice: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
Nhìn vào công nghệ AI và deepfake gần đây, tôi cần một mức bảo đảm nào đó trước khi “quyên góp giọng nói của mình” cho những nơi như thế này
Dự án này có vẻ dùng cho nhận dạng giọng nói chứ không phải tạo giọng nói, nhưng nhìn lần đầu thì không rõ ràng
- Tôi không chắc “bảo đảm” có phải cách diễn đạt chính xác không, nhưng quanh machine learning và các mô hình tạo sinh, thái độ tôn trọng tài sản của con người có vẻ khá lỏng lẻo, nên cụm “hãy quyên góp giọng nói của bạn” khiến tôi thấy vướng
  Mozilla có lẽ là tổ chức phù hợp, nhưng sản phẩm chủ lực của họ đang suy giảm, và nếu tổ chức biến mất thì không biết dữ liệu đó sẽ ra sao
  Các tổ chức đang chết dần thường có xu hướng bị bán thành từng mảnh, và dữ liệu này có thể trở thành tài sản trí tuệ mà nhiều công ty với mục đích kém cao đẹp hơn rất nhiều sẽ quan tâm
- Tôi tò mò bạn muốn thấy kiểu bảo đảm nào
Những bộ dữ liệu crowdsourcing như thế này và bộ dữ liệu do dự án OpenAssistant tạo ra có thể trở thành gần như cách duy nhất để xây dựng foundation model, nếu tòa án phán rằng hành vi của các công ty như OpenAI không phải là fair use
Tôi cũng không cho rằng kịch bản đó đặc biệt khó xảy ra
Bộ dữ liệu này nhỏ hơn vài bậc độ lớn so với dữ liệu mà các mô hình giọng nói gần đây như Whisper hay Seamless đã huấn luyện, và nó dành cho học có giám sát chứ không phải học tự giám sát với dữ liệu phong phú hơn, nhưng vẫn có thể hữu ích
Nó có thể được dùng để fine-tune các mô hình hiện có nhằm đạt điểm tốt hơn ở một ngôn ngữ cụ thể
Tôi nhớ hình như Mozilla trước đây cũng từng có phần mềm nhận dạng giọng nói liên quan rồi sau đó đã ngừng hoặc chuyển sang công ty khác
- Bạn đang nói DeepSpeech à? https://github.com/mozilla/DeepSpeech
- Đây là bộ dữ liệu công khai gồm các mẫu giọng nói để huấn luyện mô hình, nên nói chặt chẽ thì nó không phải phần mềm nhận dạng giọng nói hay TTS
Tuyệt vời
Một trong những điều tôi từng kỳ vọng ở OpenAI là họ thật sự trở thành một tổ chức mở
Tôi đã kỳ vọng dữ liệu mở, mã nguồn mở, mô hình mở, đánh giá mở, nhưng giờ họ đã trở thành con rối của Microsoft, vận hành theo mục tiêu lợi ích doanh nghiệp
Những dự án như thế này và HuggingFace thật đáng mừng, và tôi hy vọng HuggingFace sẽ không bị Microsoft mua lại như GitHub
Vậy thì tôi không hiểu tại sao text2speech trong chế độ đọc của Firefox trên Linux lại tệ đến thế
Bản thân chế độ đọc thì tuyệt vời, nhưng chất lượng giọng nói còn tệ hơn nhiều so với trình chuyển văn bản thành giọng nói của Stephen Hawking
Các bài liên quan trên HN:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - tháng 8 năm 2021, 170 bình luận
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - tháng 8 năm 2020, 154 bình luận
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - tháng 7 năm 2020, 2 bình luận
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - tháng 6 năm 2020, 41 bình luận
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - tháng 5 năm 2020, 1 bình luận
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - tháng 12 năm 2019, 9 bình luận
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - tháng 10 năm 2019, 49 bình luận
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - tháng 2 năm 2019, 61 bình luận
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - tháng 7 năm 2018, 42 bình luận
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - tháng 11 năm 2017, 88 bình luận
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - tháng 7 năm 2017, 57 bình luận
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - tháng 7 năm 2017, 1 bình luận
Tò mò không biết có bao nhiêu người khi trò chuyện hằng ngày có giọng nói khác với giọng đọc
Nếu phần lớn dữ liệu huấn luyện là âm thanh “đọc kịch bản”, liệu mô hình hội thoại có thể học đúng cách không?
- Khi nhóm Mozilla Common Voice xin phản hồi trước khi bắt đầu, tôi đã nêu vấn đề đó và đề xuất một cách tiếp cận khác là thu thập dữ liệu giọng nói hội thoại, nhưng không được chấp nhận
  Niềm tin rằng dữ liệu nhiều nhưng thô kém vẫn tốt hơn dữ liệu ít nhưng phù hợp với vấn đề thực sự muốn giải quyết khá phổ biến

Mozilla Common Voice, nền tảng bộ dữ liệu giọng nói dựa trên cộng đồng

Common Voice đang cố giải quyết điều gì

Cách đóng góp và cách sử dụng bộ dữ liệu

Scripted Speech

Spontaneous Speech

Language Text

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News