Chuyển ebook thành audiobook bằng mô hình Kokoro-82M

(claudio.uk)

24 điểm bởi GN⁺ 2025-01-16 | 3 bình luận | Chia sẻ qua WhatsApp

Kokoro v0.19 là mô hình chuyển văn bản thành giọng nói vừa được công bố gần đây, có 82M tham số và cho đầu ra chất lượng rất cao
- Giấy phép Apache, được huấn luyện với chưa đến 100 giờ âm thanh
- Hỗ trợ tiếng Anh Mỹ, tiếng Anh Anh, tiếng Pháp, tiếng Hàn, tiếng Nhật và tiếng Trung, đồng thời cung cấp nhiều giọng nói chất lượng cao
Ứng dụng của Kokoro
- Người dùng có thể tận dụng Kokoro thông qua công cụ Audiblez, cho phép chuyển ebook thành audiobook.
- Audiblez phân tích tệp .epub và chuyển phần nội dung chính của sách thành tệp âm thanh được thu đọc tốt.
- Ví dụ, trên M2 MacBook Pro, việc chuyển một cuốn sách khoảng 100.000 từ mất khoảng 2 giờ.
Cách cài đặt và chạy
- Có thể cài Audiblez qua pip trên máy tính đã cài Python 3.
- Không hoạt động trên Python 3.13.
- Cần tải thêm khoảng 360MB tệp bổ sung.
- Để chuyển tệp .epub thành audiobook, cần chạy lệnh.
Ngôn ngữ và giọng nói được hỗ trợ
- Có thể chỉ định ngôn ngữ bằng tùy chọn -l, với các mã ngôn ngữ được hỗ trợ là en-us, en-gb, fr-fr, ja, ko, cmn.
- Có thể chỉ định giọng nói bằng tùy chọn -v, và công cụ cung cấp nhiều giọng khác nhau.
Phát hiện chương
- Tính năng phát hiện chương hơi thiếu ổn định nhưng vẫn có thể tìm ra các chương chính trong phần lớn tệp .epub.
- Nếu chương bạn quan tâm không được gồm vào, có thể thử điều chỉnh hàm is_chapter trong mã.
Mã nguồn và các điểm cần cải thiện
- Có thể xem dự án Audiblez trên GitHub.
- Các cải tiến trong tương lai gồm phát hiện chương tốt hơn, bổ sung điều hướng chương và thêm phần thuyết minh cho hình ảnh.

3 bình luận

crawler 2025-01-16

Cũng có những model lớn hơn và tốt hơn cái này, nhưng có lẽ phải xem là chúng phục vụ mục đích khác.
Kokoro có kích thước nhỏ nên chạy nhanh, mà chất lượng cũng không tệ, vì vậy phản hồi dành cho nó rất tích cực.

munggo 2025-01-16

Bản tiếng Hàn nghe như tiếng Nga vậy. Mức độ tệ đến mức không thể nghe nổi.

GN⁺ 2025-01-16

Ý kiến trên Hacker News

Có cảm xúc lẫn lộn về việc dùng giọng AI, vì đôi khi người dẫn chuyện của audiobook diễn giải văn bản rất tốt
- Những audiobook có nhiều người dẫn và giọng khác nhau cho từng nhân vật mang lại trải nghiệm đặc biệt
- Đôi khi dấu hiệu duy nhất để biết ai đang nói trong đoạn hội thoại là sự thay đổi trong tông giọng
- Thích giọng AI hơn các audiobook nghiệp dư hoặc audiobook phạm vi công cộng như Project Gutenberg
Giọng do AI tạo ra rất khó nghe quá 1 phút, và nếu YouTube phát giọng AI thì sẽ lập tức bỏ qua
- Có thể là vì não chúng ta cố cảm nhận cảm xúc, quãng ngừng, nụ cười không nhìn thấy của người nói
- Mô hình sẽ được cải thiện đến mức khó nhận ra giọng do AI tạo ra
Hỏi xin gợi ý các lựa chọn mã nguồn mở để tạo TTS bằng giọng tùy chỉnh
- Dự định sẽ thử Coqui TTS
Muốn có một máy đọc sách điện tử có thể chuyển đổi giữa văn bản và âm thanh chỉ với một nút bấm
- Hình dung việc đang đọc sách trên sofa rồi chuyển sang chế độ âm thanh khi đi rửa bát
Có ý tưởng biến ebook thành audiobook bằng giọng của một người dẫn audiobook cụ thể
- Lấy cảm hứng từ dự án Infinite Conversation nhưng vẫn chưa thực hiện được
Đã thử nhiều mô hình TTS khác nhau nhưng đa số chỉ ở mức trung bình, hoặc không chạy trên Mac, hoặc rất chậm
- Mô hình lần này nhanh, dễ cài đặt và cho ra giọng khá ổn
- Không đọc những cuốn sách không có bản audiobook
- Trước đây đã dùng elevenlabs, nhưng với mục đích cá nhân thì quá đắt
Đến năm 2025, có thể sẽ tạo được audiobook bằng mạng nơ-ron với nhạc nền, hiệu ứng âm thanh và phần dẫn chuyện đầy kịch tính
"kokoro" trong tiếng Nhật có nghĩa là "trái tim"
Mong có thêm plugin cho phần mềm quản lý ebook Calibre để dễ dàng chuyển các tựa sách được chọn trong thư viện epub thành phiên bản âm thanh
Rất hài lòng vì đã thêm tham số tốc độ biến thiên

Chuyển ebook thành audiobook bằng mô hình Kokoro-82M

Ứng dụng của Kokoro

Cách cài đặt và chạy

Ngôn ngữ và giọng nói được hỗ trợ

Phát hiện chương

Mã nguồn và các điểm cần cải thiện

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News