- Kokoro v0.19 là mô hình chuyển văn bản thành giọng nói vừa được công bố gần đây, có 82M tham số và cho đầu ra chất lượng rất cao
- Giấy phép Apache, được huấn luyện với chưa đến 100 giờ âm thanh
- Hỗ trợ tiếng Anh Mỹ, tiếng Anh Anh, tiếng Pháp, tiếng Hàn, tiếng Nhật và tiếng Trung, đồng thời cung cấp nhiều giọng nói chất lượng cao
-
Ứng dụng của Kokoro
- Người dùng có thể tận dụng Kokoro thông qua công cụ Audiblez, cho phép chuyển ebook thành audiobook.
- Audiblez phân tích tệp
.epub và chuyển phần nội dung chính của sách thành tệp âm thanh được thu đọc tốt.
- Ví dụ, trên M2 MacBook Pro, việc chuyển một cuốn sách khoảng 100.000 từ mất khoảng 2 giờ.
-
Cách cài đặt và chạy
- Có thể cài Audiblez qua pip trên máy tính đã cài Python 3.
- Không hoạt động trên Python 3.13.
- Cần tải thêm khoảng 360MB tệp bổ sung.
- Để chuyển tệp
.epub thành audiobook, cần chạy lệnh.
-
Ngôn ngữ và giọng nói được hỗ trợ
- Có thể chỉ định ngôn ngữ bằng tùy chọn
-l, với các mã ngôn ngữ được hỗ trợ là en-us, en-gb, fr-fr, ja, ko, cmn.
- Có thể chỉ định giọng nói bằng tùy chọn
-v, và công cụ cung cấp nhiều giọng khác nhau.
-
Phát hiện chương
- Tính năng phát hiện chương hơi thiếu ổn định nhưng vẫn có thể tìm ra các chương chính trong phần lớn tệp
.epub.
- Nếu chương bạn quan tâm không được gồm vào, có thể thử điều chỉnh hàm
is_chapter trong mã.
-
Mã nguồn và các điểm cần cải thiện
- Có thể xem dự án Audiblez trên GitHub.
- Các cải tiến trong tương lai gồm phát hiện chương tốt hơn, bổ sung điều hướng chương và thêm phần thuyết minh cho hình ảnh.
3 bình luận
Cũng có những model lớn hơn và tốt hơn cái này, nhưng có lẽ phải xem là chúng phục vụ mục đích khác.
Kokoro có kích thước nhỏ nên chạy nhanh, mà chất lượng cũng không tệ, vì vậy phản hồi dành cho nó rất tích cực.
Bản tiếng Hàn nghe như tiếng Nga vậy. Mức độ tệ đến mức không thể nghe nổi.
Ý kiến trên Hacker News
Có cảm xúc lẫn lộn về việc dùng giọng AI, vì đôi khi người dẫn chuyện của audiobook diễn giải văn bản rất tốt
Giọng do AI tạo ra rất khó nghe quá 1 phút, và nếu YouTube phát giọng AI thì sẽ lập tức bỏ qua
Hỏi xin gợi ý các lựa chọn mã nguồn mở để tạo TTS bằng giọng tùy chỉnh
Muốn có một máy đọc sách điện tử có thể chuyển đổi giữa văn bản và âm thanh chỉ với một nút bấm
Có ý tưởng biến ebook thành audiobook bằng giọng của một người dẫn audiobook cụ thể
Đã thử nhiều mô hình TTS khác nhau nhưng đa số chỉ ở mức trung bình, hoặc không chạy trên Mac, hoặc rất chậm
Đến năm 2025, có thể sẽ tạo được audiobook bằng mạng nơ-ron với nhạc nền, hiệu ứng âm thanh và phần dẫn chuyện đầy kịch tính
"kokoro" trong tiếng Nhật có nghĩa là "trái tim"
Mong có thêm plugin cho phần mềm quản lý ebook Calibre để dễ dàng chuyển các tựa sách được chọn trong thư viện epub thành phiên bản âm thanh
Rất hài lòng vì đã thêm tham số tốc độ biến thiên