Bản demo Stable Audio
(stability-ai.github.io)- Bản demo Stable Audio trình bày bằng các ví dụ âm thanh cách một mô hình duy nhất tạo ra cả nhạc dài và hiệu ứng âm thanh ở 44.1kHz stereo
- Phần tạo nhạc tập trung vào việc tạo ra các thể loại và bầu không khí khác nhau chỉ bằng prompt như Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo
- Phần hiệu ứng âm thanh bao gồm door slam, sports car, motorbike, fireworks, cave footsteps, và các cụm như “high-quality, stereo” cũng được dùng trong prompt
- Ví dụ so sánh được sắp xếp để có thể nghe song song kết quả của MusicGen-large, MusicGen-stereo, AudioLDM2 và Audiogen-medium dựa trên các prompt từ MusicCaps và AudioCaps
- Ví dụ tái tạo bằng autoencoder cho phép so sánh bản ghi gốc với kết quả sau khi đi qua mô hình để kiểm tra độ trung thực âm thanh
Bản demo Stable Audio và các ví dụ sinh tạo
- Trang demo có thể không hoạt động đúng trên Safari, và khuyến nghị dùng Google Chrome để có trải nghiệm tốt nhất
- Cung cấp các tài liệu liên quan gồm
arXiv,stable-audio-tools,stable-audio-metricsarXiv: bài báo Stable Audiostable-audio-tools: mã nguồn để tái hiện Stable Audiostable-audio-metrics: mã nguồn đánh giá Stable Audio
- Mô hình có thể tạo nhạc stereo dài với độ dài biến thiên ở 44.1kHz
- Các prompt ví dụ gồm Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo
- Một số prompt còn chỉ định cả BPM, nhạc cụ, không khí, phong cách vùng miền và việc có loop hay không
- Cùng mô hình đó cũng tạo hiệu ứng âm thanh stereo ở 44.1kHz
- Các prompt ví dụ gồm door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave
- Với prompt hiệu ứng âm thanh, họ thêm “high-quality, stereo” và cho biết cách này nhìn chung là hữu ích
So sánh mô hình và tái tạo bằng autoencoder
- So sánh nhạc dài được xây dựng dựa trên prompt MusicCaps
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- Các prompt và âm thanh dùng trong so sánh là những gì đã được sử dụng trong nghiên cứu định tính báo cáo trong bài báo
- So sánh hiệu ứng âm thanh sử dụng prompt AudioCaps
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- Các prompt AudioCaps được chọn ngẫu nhiên không đòi hỏi chuyển động stereo lớn, nên kết quả được dựng tương đối ít tính không gian
- Phần autoencoder cung cấp so sánh tái tạo để đánh giá độ trung thực âm thanh
- Bên trái là bản ghi ground truth, bên phải là kết quả sau khi đưa bản ghi ground truth qua autoencoder
- Kết quả tái tạo khá trong suốt và ở mức rất gần với ground truth
1 bình luận
Ý kiến trên Hacker News
Điều thú vị là Ed Newton-Rex, người từng được tuyển để làm Stable Audio, đã rời công ty ngay sau khi ra mắt vì lo ngại về bản quyền và dữ liệu huấn luyện
Sau đó ông lập ra https://www.fairlytrained.org/
Tham khảo: https://x.com/ednewtonrex
Ngay cả với các chủ sở hữu quyền có hàng chục triệu đến hàng trăm triệu mục thư viện như mảnh ảnh hoặc âm thanh, chỉ chưa đến 1 tỷ token văn bản trong các kho lớn cũng khiến hiệu năng bộ mã hóa của mô hình sinh văn bản-sang-phương-tiện-đích quá thấp. Firefly của Adobe cũng nằm trong số này
Việc có nhiều dữ liệu tương tự trong các thư viện như vậy là đặc biệt hữu ích cũng là một hiểu lầm. Nếu không có bộ mã hóa văn bản mạnh, phần lớn mô hình văn bản-sang-phương-tiện-đích sẽ tạo ra kết quả trông hoặc nghe rất trung bình
Cách đơn giản nhất để xóa tan nghi ngờ kiểu này là công bố kiến trúc mô hình
Dù sao, ngay cả nếu tất cả điều đó là đúng, chính lý do chúng ta nói về mô hình khuếch tán và chú ý đến công việc mang tên Fairly Trained là vì có ai đó đã huấn luyện bằng dữ liệu không có giấy phép rõ ràng
Đó là một vị trí quan trọng, nhưng nói “người được tuyển để làm” khiến người ta nghĩ đến lập trình viên chính hoặc nhà nghiên cứu
Xét việc ông ấy là một nhà sáng lập có nền tảng âm nhạc, chuyện rời đi cũng dễ hiểu hơn
Hoặc có lẽ đó là một bước cần thiết cho mô hình kinh doanh chứng nhận của chính ông ấy
Tôi thấy việc này không khác gì một nghệ sĩ sáng tác nhạc dưới ảnh hưởng của âm nhạc họ đã nghe cả đời. Về cơ bản thì chính xác là cùng một việc, và âm nhạc hay nghệ thuật không thể được tạo ra trong chân không
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.Cảm giác như đã quay một vòng trở lại thời Internet Explorer những năm 90. Lần này điểm khác biệt phần nào là trình duyệt thống trị là mã nguồn mở
Ước gì ai đó làm một nút GIF động cho Chrome ghi “Best viewed with Google Chrome”
Xem nút: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Cũng như Stable Diffusion, trong mô hình này prompt văn bản có lẽ sẽ là cách khó kiểm soát nhất để thu được đầu ra hữu ích
Có thể dễ dàng hình dung việc dùng MIDI làm đầu vào cùng với ControlNet, biến nó trên thực tế thành một synthesizer mạng nơ-ron
Thay vào đó, tốt hơn là tập trung dùng AI để hỗ trợ quy trình của nghệ sĩ ở nhiều giai đoạn khác nhau trong sản xuất âm nhạc
So với các mô hình âm nhạc mới nhất như MusicGen, MusicLM, cái này tốt hơn rất nhiều. Có vẻ cũng có trang sản phẩm có thể dùng theo đăng ký như Midjourney: https://www.stableaudio.com/
Đáng tiếc là đây không phải mô hình công bố trọng số, và có vẻ cũng không có API. Đây là kiểu tạo âm thanh trong UI theo thuê bao tháng, chứ không phải dạng để nhà phát triển tích hợp hoặc bọc lại
Tôi thắc mắc vì sao nó không được đưa thẳng vào điều khoản “sản phẩm thương mại có dưới 100 nghìn người dùng hoạt động hằng tháng” mà lại có điều khoản riêng
Tốc độ phát triển mô hình rất nhanh, nên có vẻ đây sẽ là một năm khá lớn đối với mảng âm nhạc
Tôi nghĩ vẫn cần một giai đoạn trong đó AI trước hết học được thư viện âm thanh chất lượng cao nghe như thế nào, rồi sau đó áp dụng năng lực đã học để dùng MIDI kích hoạt âm thanh của thư viện đó
Làm vậy có thể có được cả sự sáng tạo của AI âm nhạc lẫn chất lượng audio hoàn hảo
Tôi không biết có thể áp dụng dataset hay kiến trúc nào cho việc đó, nhưng chắc chắn sẽ rất thú vị
Tôi không có ý hạ thấp bước tiến ở đây, và đúng là nó ấn tượng
Với tư cách một tay trống, “drum solo” thuộc nhóm nhàm chán nhất, lại còn lẫn nhiều âm thanh kỳ lạ. Cuối cùng có lẽ còn tùy vào đối tượng người nghe được nhắm tới
Nhân tiện, theo chuẩn hiện tại, hiệu ứng âm thanh cũng không nghe chân thực với tai tôi
Dù vậy, mức tiến bộ là lớn, làm tốt đấy
Do đặc tính trông như ngẫu nhiên nhưng không hoàn toàn ngẫu nhiên, nó tạo ra các mẫu tiết tấu khá phi truyền thống. Giá mà có thể ứng biến thêm syncopation như thế này
Đừng bắt tôi chép nó thành bản nhạc
Độ nhất quán tempo rất tốt. Tuy nhiên tiếng ồn không cần thiết và dư âm cymbal ngẫu nhiên cho thấy giới hạn của mô hình
Hiện đã có hàng triệu track nhạc thư viện và hiệu ứng âm thanh nghe hay hơn nhiều. Để cạnh tranh với chúng sẽ cần đầu tư khổng lồ vào AI tạo sinh, nhưng không giống văn bản hay hình ảnh, tôi không thấy nó có tính kinh tế
Nó nghe như ai đó gõ trống bừa bãi, chỉ đại khái khớp tempo
Dù vậy, những thứ như nhạc thang máy thì nó làm tạm ổn, và điều đó cũng đúng như dự đoán
Thú vị ở chỗ họ công khai mã và hướng dẫn thân thiện cho việc huấn luyện, nhưng lại không công khai mô hình
Gần như là đang nài nỉ những người ẩn danh nối data loader với tài khoản Apple Music rồi cho chạy thoải mái. Tất nhiên, không ai đang đề xuất làm vậy cả
Tôi đã thoáng kỳ vọng vào ý tưởng tạo hiệu ứng âm thanh, nhưng “tiếng bước chân” đó dở đến khó tin
Đúng là không có trọng số công khai phải không? Khó tìm thấy chỗ nào nói rõ là bên nào
Sửa: À, tôi không biết đây lại là bình luận gây tranh cãi. Giá mà có ai trả lời câu hỏi trước khi downvote thì tốt, nhưng thôi cũng được
Tham khảo: https://github.com/Stability-AI/stable-audio-tools
“Với prompt hiệu ứng âm thanh, chúng tôi thường thêm ‘high-quality, stereo’ vì nó hay có ích.”
Thật buồn cười khi phát hiện rằng nếu chỉ nói một cách lịch sự với LLM rằng hãy tạo kết quả tốt hơn, thì đầu ra sẽ tốt hơn
Máy tính, như mọi khi, làm theo điều ta yêu cầu, chứ không phải điều ta định nói