Bark - Mô hình Text-To-Audio dựa trên Transformer
(github.com/suno-ai)- Có thể tạo giọng nói đa ngôn ngữ rất chân thực
- Bao gồm nhạc, tiếng ồn nền và các hiệu ứng âm thanh đơn giản
- Cũng có thể thể hiện các giao tiếp phi ngôn ngữ như tiếng cười, tiếng thở dài và tiếng khóc
- Hỗ trợ tiếng Anh/tiếng Hàn cùng tiếng Đức/tiếng Pháp/tiếng Nhật/tiếng Trung v.v.
- Sử dụng codec EnCodec của Facebook
- Bark có giấy phép CC-BY 4.0 NC, còn bản thân mô hình Suno có thể được sử dụng cho mục đích thương mại
2 bình luận
Các nội dung do Bark tạo ra đôi khi khác với prompt của tôi. Chuyện gì đang xảy ra?
Bark là một mô hình kiểu GPT. Vì vậy, nó có thể tự do sáng tạo ở một mức độ nào đó khi tạo nội dung, dẫn đến đầu ra của mô hình có độ biến thiên cao hơn so với các phương pháp chuyển văn bản thành giọng nói truyền thống.
Đoạn này hơi đáng sợ nhỉ run run. Thỉnh thoảng việc nó tạo ra khác với prompt là để dành cho cái gọi là "tự do sáng tạo" của mô hình sao..
Khá thú vị khi nó tạo tiếng Hàn khá tốt.