Bark - Mô hình Text-To-Audio dựa trên Transformer

xguru · 2023-04-24T09:35:19+09:00

Có thể tạo giọng nói đa ngôn ngữ rất chân thực Bao gồm nhạc, tiếng ồn nền và các hiệu ứng âm thanh đơn giản Cũng có thể thể hiện các giao tiếp phi ngôn ngữ như tiếng cười, tiếng thở dài và tiếng khóc Hỗ trợ tiếng Anh/tiếng Hàn cùng tiếng Đức/tiếng Pháp/tiếng Nhật/tiếng Trung v.v. Sử dụng codec EnCodec của Facebook Bark có giấy phép CC-BY 4.0 NC, còn bản thân mô hình Suno có thể được sử dụng cho mục đích thương mại

(github.com/suno-ai)

24 điểm bởi xguru 2023-04-24 | 2 bình luận | Chia sẻ qua WhatsApp

Có thể tạo giọng nói đa ngôn ngữ rất chân thực
Bao gồm nhạc, tiếng ồn nền và các hiệu ứng âm thanh đơn giản
Cũng có thể thể hiện các giao tiếp phi ngôn ngữ như tiếng cười, tiếng thở dài và tiếng khóc
Hỗ trợ tiếng Anh/tiếng Hàn cùng tiếng Đức/tiếng Pháp/tiếng Nhật/tiếng Trung v.v.
Sử dụng codec EnCodec của Facebook
Bark có giấy phép CC-BY 4.0 NC, còn bản thân mô hình Suno có thể được sử dụng cho mục đích thương mại

2 bình luận

dlehals2 2023-04-24

Các nội dung do Bark tạo ra đôi khi khác với prompt của tôi. Chuyện gì đang xảy ra?
Bark là một mô hình kiểu GPT. Vì vậy, nó có thể tự do sáng tạo ở một mức độ nào đó khi tạo nội dung, dẫn đến đầu ra của mô hình có độ biến thiên cao hơn so với các phương pháp chuyển văn bản thành giọng nói truyền thống.

Đoạn này hơi đáng sợ nhỉ run run. Thỉnh thoảng việc nó tạo ra khác với prompt là để dành cho cái gọi là "tự do sáng tạo" của mô hình sao..

kuroneko 2023-04-24

Khá thú vị khi nó tạo tiếng Hàn khá tốt.

Bark - Mô hình Text-To-Audio dựa trên Transformer

Bài viết liên quan

2 bình luận