1 điểm bởi GN⁺ 2023-12-08 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu dự án Mozilla Common Voice

  • Mozilla Common Voice là một dự án giúp máy móc học được cách con người thực sự nói.
  • Để công nghệ giọng nói có thể sử dụng được, các nhà phát triển cần một lượng dữ liệu giọng nói khổng lồ.
  • Phần lớn dữ liệu đang được các tập đoàn lớn sử dụng và đa số mọi người không thể tiếp cận, điều này được cho là đang cản trở đổi mới.

Tình trạng ghi nhận và xác minh dữ liệu giọng nói

  • Tính đến nay, đã có 29.000 giờ giọng nói được ghi lại, trong đó 18.000 giờ đã được xác minh.

Hỗ trợ nhiều ngôn ngữ

  • Dự án Common Voice hỗ trợ nhiều ngôn ngữ trên toàn thế giới và người dùng có thể đóng góp bằng ngôn ngữ của mình.

Hỗ trợ xây dựng bộ dữ liệu công khai chất lượng cao

  • Bạn có thể đóng góp mà không cần tạo hồ sơ, nhưng cũng có thể cung cấp dữ liệu nhân khẩu học ẩn danh để làm phong phú thêm dữ liệu đã gửi.
  • Thông tin hồ sơ giúp nâng cao chất lượng dữ liệu âm thanh dùng để huấn luyện độ chính xác của nhận dạng giọng nói.
  • Người dùng có thể theo dõi tiến độ và các chỉ số của mình trên nhiều ngôn ngữ.
  • Có thể so sánh tiến độ với những người đóng góp khác trên toàn thế giới.
  • Có thể kiểm tra tiến độ đối với các mục tiêu cá nhân và mục tiêu của dự án.
  • Nếu muốn, bạn có thể tự nguyện đăng ký vào danh sách email để nhận cập nhật dự án và thông tin mới.

Ý kiến của GN⁺

Điểm quan trọng nhất của bài viết này là Mozilla đã khởi động dự án Common Voice nhằm cung cấp lượng dữ liệu giọng nói quy mô lớn cần thiết cho các nhà phát triển muốn xây dựng công nghệ nhận dạng giọng nói. Dự án này cho thấy nỗ lực của Mozilla trong việc thúc đẩy đổi mới công nghệ, đồng thời mở ra cơ hội để nhiều người trên khắp thế giới đóng góp cho sự phát triển công nghệ thông qua việc hỗ trợ đa dạng ngôn ngữ. Điều này phản ánh triết lý theo đuổi dân chủ hóa công nghệ của Mozilla và sẽ là một sáng kiến thú vị, hấp dẫn đối với nhiều người.

1 bình luận

 
GN⁺ 2023-12-08
Ý kiến Hacker News
    • TTS của FF là một dự án quan trọng đối với những ai muốn một hệ thống chuyển văn bản thành giọng nói dễ sử dụng. Nó được tích hợp sẵn trong trình duyệt, nên có thể chạy đoạn mã đơn giản trong console để nghe nhiều ví dụ TTS khác nhau. Một số trình duyệt còn hỗ trợ ngoại tuyến, trong khi các trình duyệt khác dùng hệ thống TTS dựa trên đám mây.
    • Common Voice Android là một ứng dụng hữu ích cho những ai muốn đóng góp cho dự án. Người dùng có thể ghi âm giọng nói bằng ngôn ngữ mình sử dụng và xác minh đóng góp của những người dùng khác. Ứng dụng này có thiết kế thân thiện hơn với người dùng so với phiên bản trang web chính thức.
    • Nếu tòa án phán quyết rằng hành vi của các công ty như OpenAI không thuộc phạm vi sử dụng hợp lý, thì các bộ dữ liệu crowdsourcing có thể trở thành cách duy nhất để xây dựng các mô hình nền tảng. Khả năng xảy ra kịch bản này không hề thấp.
    • Bộ dữ liệu này nhỏ hơn nhiều so với những gì các mô hình giọng nói gần đây được huấn luyện trên đó, nhưng nó предназначен cho học có giám sát hơn là học tự giám sát, và vẫn hữu ích cho việc tinh chỉnh nhằm cải thiện hiệu năng của mô hình đối với các ngôn ngữ cụ thể.
    • Xét đến các vụ việc gần đây liên quan đến AI và công nghệ deepfake, cần có những bảo đảm nhất định trước khi đồng ý "hiến tặng giọng nói của tôi" cho các dự án như thế này. Không rõ dự án này nhằm phục vụ nhận dạng giọng nói hay tạo sinh giọng nói.
    • Không biết Mozilla trước đây có từng hủy bỏ hoặc chuyển giao phần mềm giọng nói-thành-văn-bản liên quan cho công ty khác hay chưa. Hay đó là một thứ khác?
    • Vì sao tính năng chuyển văn bản thành giọng nói trong chế độ Reader Mode của Firefox trên Linux lại tệ đến vậy? Nó còn tệ hơn rất nhiều so với hệ thống TTS của Stephen Hawking.
    • Tôi từng hy vọng OpenAI thực sự cởi mở, nhưng giờ đây họ đã trở thành con rối của Microsoft và theo đuổi mục tiêu lợi nhuận doanh nghiệp. Những dự án như dự án này và HuggingFace thật đáng mừng, và tôi hy vọng HuggingFace sẽ không bị Microsoft thâu tóm như GitHub.
    • Trong số những người ở đây, có bao nhiêu người có "giọng đọc" khác với giọng nói khi trò chuyện hằng ngày? Nếu phần lớn dữ liệu huấn luyện nghe như "đọc theo kịch bản", liệu có thể huấn luyện được một mô hình hội thoại không?
    • Có cung cấp các liên kết tin tức liên quan, mang đến thông tin về tiến triển của dự án Mozilla Common Voice và việc mở rộng bộ dữ liệu giọng nói.