eSpeak NG - Trình tổng hợp giọng nói mã nguồn mở hỗ trợ hơn 100 ngôn ngữ và giọng địa phương

xguru · 2024-05-07T09:46:02+09:00

Linux, Windows, Android và các hệ điều hành khác Dựa trên engine eSpeak sử dụng phương pháp "Formant Synthesis (tổng hợp formant)" Từng được dùng trong Windows và cả engine của Google Dịch nhờ kích thước nhỏ nhưng hỗ trợ nhiều ngôn ngữ (hiện nay phần lớn đã được thay bằng engine riêng) Giọng nói rõ ràng và có thể dùng ở tốc độ cao, nhưng không tự nhiên hay mượt mà bằng các bộ tổng hợp lớn dựa trên bản ghi giọng nói của con người Ngoài ra còn hỗ trợ tổng hợp formant Klatt và có thể dùng MBROLA làm backend tổng hợp giọng nói Các hình thức hỗ trợ Chương trình dòng lệnh: Linux & Windows. Đọc chuỗi nhận từ file và stdin Thư viện dùng chung (DLL trên Windows) Phiên bản SAPI5 cho Windows. Có thể dùng qua giao diện SAPI5 trong screen reader và các chương trình khác Được port sang nhiều nền tảng khác nhau bao gồm Solaris, MacOS Tính năng Bao gồm nhiều giọng nói với các đặc tính có thể thay đổi Có thể tạo đầu ra giọng nói thành file WAV Hỗ trợ SSML (Ngôn ngữ đánh dấu tổng hợp giọng nói, chưa hoàn chỉnh) và cả HTML Kích thước gọn nhẹ. Tổng dung lượng của chương trình và dữ liệu, bao gồm nhiều ngôn ngữ, chỉ ở mức vài MB Có thể dùng làm frontend cho MBROLA diphone Voices. eSpeak NG chuyển văn bản thành các âm vị kèm thông tin về cao độ và độ dài MBROLA là một engine giọng nói mã nguồn mở gồm tập hợp các âm tiết để tổng hợp giọng nói Các giọng nói được cung cấp miễn phí cho mục đích phi thương mại, nhưng không phải mã nguồn mở Có thể chuyển văn bản thành mã âm vị, vì vậy có thể áp dụng làm frontend cho các engine tổng hợp giọng nói khác Có thể bổ sung hỗ trợ cho các ngôn ngữ khác. Nhiều ngôn ngữ đã được đưa vào ở các mức độ hoàn thiện khác nhau Được viết bằng C

(github.com/espeak-ng)

16 điểm bởi xguru 2024-05-07 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Linux, Windows, Android và các hệ điều hành khác
Dựa trên engine eSpeak sử dụng phương pháp "Formant Synthesis (tổng hợp formant)"
- Từng được dùng trong Windows và cả engine của Google Dịch nhờ kích thước nhỏ nhưng hỗ trợ nhiều ngôn ngữ (hiện nay phần lớn đã được thay bằng engine riêng)
- Giọng nói rõ ràng và có thể dùng ở tốc độ cao, nhưng không tự nhiên hay mượt mà bằng các bộ tổng hợp lớn dựa trên bản ghi giọng nói của con người
- Ngoài ra còn hỗ trợ tổng hợp formant Klatt và có thể dùng MBROLA làm backend tổng hợp giọng nói
Các hình thức hỗ trợ
- Chương trình dòng lệnh: Linux & Windows. Đọc chuỗi nhận từ file và stdin
- Thư viện dùng chung (DLL trên Windows)
- Phiên bản SAPI5 cho Windows. Có thể dùng qua giao diện SAPI5 trong screen reader và các chương trình khác
- Được port sang nhiều nền tảng khác nhau bao gồm Solaris, MacOS
Tính năng
- Bao gồm nhiều giọng nói với các đặc tính có thể thay đổi
- Có thể tạo đầu ra giọng nói thành file WAV
- Hỗ trợ SSML (Ngôn ngữ đánh dấu tổng hợp giọng nói, chưa hoàn chỉnh) và cả HTML
- Kích thước gọn nhẹ. Tổng dung lượng của chương trình và dữ liệu, bao gồm nhiều ngôn ngữ, chỉ ở mức vài MB
- Có thể dùng làm frontend cho MBROLA diphone Voices. eSpeak NG chuyển văn bản thành các âm vị kèm thông tin về cao độ và độ dài
  - MBROLA là một engine giọng nói mã nguồn mở gồm tập hợp các âm tiết để tổng hợp giọng nói
  - Các giọng nói được cung cấp miễn phí cho mục đích phi thương mại, nhưng không phải mã nguồn mở
- Có thể chuyển văn bản thành mã âm vị, vì vậy có thể áp dụng làm frontend cho các engine tổng hợp giọng nói khác
- Có thể bổ sung hỗ trợ cho các ngôn ngữ khác. Nhiều ngôn ngữ đã được đưa vào ở các mức độ hoàn thiện khác nhau
- Được viết bằng C

eSpeak NG - Trình tổng hợp giọng nói mã nguồn mở hỗ trợ hơn 100 ngôn ngữ và giọng địa phương

Bài viết liên quan

Chưa có bình luận nào.