Stable Audio - Latent Audio Diffusion với khả năng điều khiển thời lượng nhanh

(stability.ai)

5 điểm bởi GN⁺ 2023-09-14 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình khuếch tán tiềm ẩn (Latent Diffusion Model)
- Mô hình khuếch tán hoạt động trong không gian mã hóa tiềm ẩn của một bộ tự mã hóa đã được huấn luyện trước
- Tăng đáng kể tốc độ huấn luyện và suy luận của mô hình khuếch tán
Một trong những vấn đề chính khi tạo âm thanh bằng mô hình khuếch tán là các mô hình này thường được huấn luyện để tạo ra đầu ra có kích thước cố định
- Nếu được huấn luyện trên các clip âm thanh 30 giây, thì chỉ có thể tạo âm thanh theo đơn vị 30 giây
- Điều này trở thành vấn đề khi muốn huấn luyện và tạo ra âm thanh có độ dài rất đa dạng, chẳng hạn như khi tạo cả một bài nhạc hoàn chỉnh
Các mô hình khuếch tán âm thanh có xu hướng được huấn luyện bằng cách cắt ngẫu nhiên các đoạn âm thanh từ tệp âm thanh dài rồi cắt bớt hoặc đệm thêm để khớp với độ dài huấn luyện của mô hình khuếch tán
Với âm nhạc, điều này khiến mô hình có xu hướng tạo ra các đoạn bài hát ngẫu nhiên bắt đầu hoặc kết thúc ở giữa một câu nhạc
Stable Audio là một mô hình khuếch tán tiềm ẩn cho âm thanh, được điều kiện hóa không chỉ theo độ dài tệp âm thanh và thời điểm bắt đầu mà còn theo siêu dữ liệu văn bản
- Khả năng điều khiển thời lượng này cho phép tạo âm thanh với độ dài chỉ định, tối đa bằng kích thước cửa sổ huấn luyện
Mô hình Stable Audio sử dụng các kỹ thuật lấy mẫu diffusion hiện đại có thể tạo ra 95 giây âm thanh stereo ở tần số lấy mẫu 44.1kHz trên GPU NVIDIA A100 trong chưa tới 1 giây
Được phát triển bởi Harmonai, phòng nghiên cứu Generative Audio của Stability AI
Dựa trên mô hình U-Net 907M (907 triệu tham số) đã được sử dụng trong Moûsai
Mô hình Stable Audio được huấn luyện trên một bộ dữ liệu gồm hơn 800.000 tệp âm thanh, bao gồm nhạc, hiệu ứng âm thanh và các stem nhạc cụ đơn lẻ do nhà cung cấp âm nhạc lớn AudioSparx cung cấp
Trong các công việc tiếp theo, nhóm sẽ cải thiện kiến trúc mô hình, bộ dữ liệu và quy trình huấn luyện để nâng cao chất lượng đầu ra, khả năng điều khiển, tốc độ suy luận và độ dài đầu ra
Harmonai có kế hoạch công bố các mô hình mã nguồn mở dựa trên Stable Audio và mã huấn luyện để huấn luyện các mô hình tạo âm thanh

1 bình luận

GN⁺ 2023-09-14

Ý kiến trên Hacker News

Bài viết này thảo luận về 'Stable Audio', một công nghệ khuếch tán âm thanh tiềm ẩn với điều kiện thời gian nhanh.
Một số người dùng đánh giá phần nhạc piano độc tấu được tạo ra là sạch sẽ và thú vị, đồng thời đề xuất rằng nó có thể dễ dàng được chuyển thành bản nhạc để sử dụng linh hoạt hơn.
Có nhu cầu để AI trong lĩnh vực âm thanh và hình ảnh tạo ra các đầu ra có tính cấu trúc hoặc tính biểu tượng hơn, như các lớp hoặc nét cọ của hình ảnh, hay các track cấu thành của âm nhạc.
Đặc biệt, một số người dùng có nền tảng âm nhạc không bị ấn tượng bởi các tác phẩm nhạc được tạo ra và đánh giá chúng là lặp lại, thiếu trí tưởng tượng.
Công nghệ này có tiềm năng được dùng để tạo nhạc nền cho game hoặc các ứng dụng khác nơi âm nhạc chất lượng cao không phải ưu tiên hàng đầu.
Một người dùng đề xuất rằng công nghệ này có thể được dùng trên Spotify để tạo ra âm nhạc phù hợp với sở thích cá nhân.
Có sự quan tâm về việc liệu mô hình có hỗ trợ hoặc "hiểu" khái niệm âm thanh không gian hay không, ví dụ như tiếng chuông báo thức di chuyển theo hình tròn.
Một số người dùng bày tỏ nhu cầu về công nghệ có thể nhận đầu vào như giai điệu, tiến trình hợp âm hoặc dữ liệu biểu diễn, qua đó gợi mở tiềm năng cho thế hệ công cụ âm thanh mới.
Một số người dùng chú ý đến hiệu ứng "thung lũng kỳ lạ" trong các ví dụ âm thanh, tức là âm thanh bị trộn lẫn và thiếu một giọng âm nhạc rõ ràng, gọn gàng.
Bất chấp những chỉ trích này, một số người dùng vẫn bày tỏ sự trân trọng rằng công nghệ như vậy tồn tại, đối lập với sự chế giễu trước đây từ các công ty như Google và Meta.

Stable Audio - Latent Audio Diffusion với khả năng điều khiển thời lượng nhanh

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News