Bản demo âm thanh ổn định
(stability-ai.github.io)Hướng dẫn
- Trang web này có thể không hoạt động đúng trên Safari và khuyến nghị sử dụng Google Chrome để có trải nghiệm tốt nhất.
Tạo âm thanh ổn định
- Mô hình có thể tạo nhạc stereo 44.1kHz với nhiều độ dài khác nhau, với các ví dụ như techno Berlin, rave, drum machine, synthesizer và nhạc mang bầu không khí u tối.
- Khác với mô hình tiên tiến trước đây, mô hình này cũng có thể tạo hiệu ứng âm thanh stereo 44.1kHz, với các ví dụ như tiếng cửa đóng, tiếng xe thể thao hoặc mô tô chạy ngang qua, pháo hoa và tiếng bước chân bên trong hang động.
- Mọi ví dụ trên trang web này đều được tạo bằng cùng một mô hình có thể tạo cả nhạc và hiệu ứng âm thanh ở định dạng stereo 44.1kHz.
Tạo nhạc stereo dài hạn: so sánh với công nghệ tiên tiến nhất
- Có thể đánh giá chất lượng âm thanh thông qua việc so sánh giữa mô hình tạo nhạc kết hợp mandolin, tiếng huýt sáo, guitar, flute và các mô hình khác.
- Việc tạo nhạc thương mại với giai điệu piano, snare roll, kick pattern, hi-hat, tiếng vỗ tay và giai điệu lead synthesizer cũng là đối tượng so sánh.
Hiệu ứng âm thanh: so sánh với công nghệ tiên tiến nhất
- Có thể đánh giá chất lượng âm thanh thông qua việc so sánh giữa mô hình tạo tiếng click của động cơ, âm thanh quay tốc độ cao, tiếng chim hót to và các mô hình khác.
- Prompt được chọn không đòi hỏi chuyển động stereo lớn nên cho ra kết quả dựng âm tương đối ít tính không gian.
Autoencoder: tái tạo
- Để đánh giá năng lực trung thực âm thanh, bản ghi gốc được so sánh với bản ghi đã đi qua autoencoder.
- Bản tái tạo từ autoencoder rất giống với bản gốc, gần như đạt mức trong suốt.
Ý kiến của GN⁺
- Công nghệ này thể hiện một bước tiến quan trọng trong lĩnh vực tạo nhạc và hiệu ứng âm thanh, đặc biệt nổi bật ở khả năng tạo âm thanh stereo chất lượng cao.
- Việc so sánh với các mô hình tiên tiến nhất cho phép đánh giá khách quan chất lượng âm thanh vượt trội của mô hình này, nên được kỳ vọng sẽ trở thành công cụ hữu ích cho các nhà sáng tạo nội dung âm thanh.
- So sánh tái tạo thông qua autoencoder cho thấy công nghệ này có thể phục hồi âm thanh gốc rất chính xác, qua đó gợi mở khả năng ứng dụng trong các lĩnh vực nhạy cảm với chất lượng âm thanh.
1 bình luận
Ý kiến trên Hacker News
Ed Newton-Rex đã rời đi ngay sau khi Stable Audio ra mắt vì lo ngại về bản quyền và dữ liệu huấn luyện.
Tình hình của thập niên 90 và Internet Explorer đang lặp lại, nhưng điểm tích cực lần này là trình duyệt thống trị lại là mã nguồn mở.
Tương tự Stable Diffusion, prompt văn bản có lẽ sẽ là cách khó kiểm soát nhất để có được đầu ra hữu ích.
Stable Audio vượt trội đáng kể so với các mô hình âm nhạc SOTA hiện tại (MusicGen, MusicLM).
Vẫn cần một giai đoạn mà AI học từ các thư viện âm thanh chất lượng cao và kích hoạt âm thanh của thư viện đó qua MIDI.
Với tư cách là một tay trống, phần 'drum solo' nghe nhàm chán, lẫn nhiều âm thanh kỳ lạ và vẫn chưa phải là hiệu ứng âm thanh giống thật.
Mã nguồn và hướng dẫn huấn luyện đã được công bố, nhưng mô hình thì không.
Thật thú vị khi phát hiện thêm prompt 'chất lượng cao, stereo' thường sẽ giúp ích.
Ý tưởng tạo hiệu ứng âm thanh từng có vẻ thú vị trong chốc lát, nhưng 'tiếng bước chân' thì rất tệ.
Có thể tạo ra âm nhạc rất độc đáo và thú vị bằng prompt 'âm nhạc tràn đầy năng lượng, violin, vocal, dàn nhạc, piano, chủ nghĩa tối giản, John Adams, Nixon in China'.