- Mô hình khuếch tán tiềm ẩn (Latent Diffusion Model)
- Mô hình khuếch tán hoạt động trong không gian mã hóa tiềm ẩn của một bộ tự mã hóa đã được huấn luyện trước
- Tăng đáng kể tốc độ huấn luyện và suy luận của mô hình khuếch tán
- Một trong những vấn đề chính khi tạo âm thanh bằng mô hình khuếch tán là các mô hình này thường được huấn luyện để tạo ra đầu ra có kích thước cố định
- Nếu được huấn luyện trên các clip âm thanh 30 giây, thì chỉ có thể tạo âm thanh theo đơn vị 30 giây
- Điều này trở thành vấn đề khi muốn huấn luyện và tạo ra âm thanh có độ dài rất đa dạng, chẳng hạn như khi tạo cả một bài nhạc hoàn chỉnh
- Các mô hình khuếch tán âm thanh có xu hướng được huấn luyện bằng cách cắt ngẫu nhiên các đoạn âm thanh từ tệp âm thanh dài rồi cắt bớt hoặc đệm thêm để khớp với độ dài huấn luyện của mô hình khuếch tán
- Với âm nhạc, điều này khiến mô hình có xu hướng tạo ra các đoạn bài hát ngẫu nhiên bắt đầu hoặc kết thúc ở giữa một câu nhạc
- Stable Audio là một mô hình khuếch tán tiềm ẩn cho âm thanh, được điều kiện hóa không chỉ theo độ dài tệp âm thanh và thời điểm bắt đầu mà còn theo siêu dữ liệu văn bản
- Khả năng điều khiển thời lượng này cho phép tạo âm thanh với độ dài chỉ định, tối đa bằng kích thước cửa sổ huấn luyện
- Mô hình Stable Audio sử dụng các kỹ thuật lấy mẫu diffusion hiện đại có thể tạo ra 95 giây âm thanh stereo ở tần số lấy mẫu 44.1kHz trên GPU NVIDIA A100 trong chưa tới 1 giây
- Được phát triển bởi Harmonai, phòng nghiên cứu Generative Audio của Stability AI
- Dựa trên mô hình U-Net 907M (907 triệu tham số) đã được sử dụng trong Moûsai
- Mô hình Stable Audio được huấn luyện trên một bộ dữ liệu gồm hơn 800.000 tệp âm thanh, bao gồm nhạc, hiệu ứng âm thanh và các stem nhạc cụ đơn lẻ do nhà cung cấp âm nhạc lớn AudioSparx cung cấp
- Trong các công việc tiếp theo, nhóm sẽ cải thiện kiến trúc mô hình, bộ dữ liệu và quy trình huấn luyện để nâng cao chất lượng đầu ra, khả năng điều khiển, tốc độ suy luận và độ dài đầu ra
- Harmonai có kế hoạch công bố các mô hình mã nguồn mở dựa trên Stable Audio và mã huấn luyện để huấn luyện các mô hình tạo âm thanh
1 bình luận
Ý kiến trên Hacker News