AudioGen: Tạo âm thanh bằng văn bản mô tả ngữ cảnh

xguru · 2022-10-04T10:28:48+09:00

Có thể tạo ra các âm thanh như "chó sủa trong công viên", "tiếng huýt sáo khi gió đang thổi", "một người đàn ông phát biểu trước đám đông đang reo hò" Việc tạo âm thanh có nhiều thách thức Khó tách riêng các đối tượng phát ra âm thanh, và điều này càng phức tạp hơn do các điều kiện ghi âm đa dạng trong môi trường thực tế; ngoài ra còn thiếu dữ liệu chú thích cho các tình huống này nên khó mở rộng mô hình Để giảm bớt những vấn đề này, đề xuất một kỹ thuật tăng cường (augmentation technique) bằng cách trộn nhiều mẫu âm thanh đa dạng và để mô hình tự học bên trong kỹ năng tách nhiều nguồn âm thanh

(felixkreuk.github.io)

12 điểm bởi xguru 2022-10-04 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Có thể tạo ra các âm thanh như "chó sủa trong công viên", "tiếng huýt sáo khi gió đang thổi", "một người đàn ông phát biểu trước đám đông đang reo hò"
Việc tạo âm thanh có nhiều thách thức
- Khó tách riêng các đối tượng phát ra âm thanh, và điều này càng phức tạp hơn do các điều kiện ghi âm đa dạng trong môi trường thực tế; ngoài ra còn thiếu dữ liệu chú thích cho các tình huống này nên khó mở rộng mô hình
Để giảm bớt những vấn đề này, đề xuất một kỹ thuật tăng cường (augmentation technique) bằng cách trộn nhiều mẫu âm thanh đa dạng và để mô hình tự học bên trong kỹ năng tách nhiều nguồn âm thanh

AudioGen: Tạo âm thanh bằng văn bản mô tả ngữ cảnh

Bài viết liên quan

Chưa có bình luận nào.