1 điểm bởi GN⁺ 2024-02-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bản demo Stable Audio trình bày bằng các ví dụ âm thanh cách một mô hình duy nhất tạo ra cả nhạc dài và hiệu ứng âm thanh ở 44.1kHz stereo
  • Phần tạo nhạc tập trung vào việc tạo ra các thể loại và bầu không khí khác nhau chỉ bằng prompt như Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo
  • Phần hiệu ứng âm thanh bao gồm door slam, sports car, motorbike, fireworks, cave footsteps, và các cụm như “high-quality, stereo” cũng được dùng trong prompt
  • Ví dụ so sánh được sắp xếp để có thể nghe song song kết quả của MusicGen-large, MusicGen-stereo, AudioLDM2 và Audiogen-medium dựa trên các prompt từ MusicCaps và AudioCaps
  • Ví dụ tái tạo bằng autoencoder cho phép so sánh bản ghi gốc với kết quả sau khi đi qua mô hình để kiểm tra độ trung thực âm thanh

Bản demo Stable Audio và các ví dụ sinh tạo

  • Trang demo có thể không hoạt động đúng trên Safari, và khuyến nghị dùng Google Chrome để có trải nghiệm tốt nhất
  • Cung cấp các tài liệu liên quan gồm arXiv, stable-audio-tools, stable-audio-metrics
    • arXiv: bài báo Stable Audio
    • stable-audio-tools: mã nguồn để tái hiện Stable Audio
    • stable-audio-metrics: mã nguồn đánh giá Stable Audio
  • Mô hình có thể tạo nhạc stereo dài với độ dài biến thiên ở 44.1kHz
    • Các prompt ví dụ gồm Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo
    • Một số prompt còn chỉ định cả BPM, nhạc cụ, không khí, phong cách vùng miền và việc có loop hay không
  • Cùng mô hình đó cũng tạo hiệu ứng âm thanh stereo ở 44.1kHz
    • Các prompt ví dụ gồm door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave
    • Với prompt hiệu ứng âm thanh, họ thêm “high-quality, stereo” và cho biết cách này nhìn chung là hữu ích

So sánh mô hình và tái tạo bằng autoencoder

  • So sánh nhạc dài được xây dựng dựa trên prompt MusicCaps
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • Các prompt và âm thanh dùng trong so sánh là những gì đã được sử dụng trong nghiên cứu định tính báo cáo trong bài báo
  • So sánh hiệu ứng âm thanh sử dụng prompt AudioCaps
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • Các prompt AudioCaps được chọn ngẫu nhiên không đòi hỏi chuyển động stereo lớn, nên kết quả được dựng tương đối ít tính không gian
  • Phần autoencoder cung cấp so sánh tái tạo để đánh giá độ trung thực âm thanh
    • Bên trái là bản ghi ground truth, bên phải là kết quả sau khi đưa bản ghi ground truth qua autoencoder
    • Kết quả tái tạo khá trong suốt và ở mức rất gần với ground truth

1 bình luận

 
GN⁺ 2024-02-14
Ý kiến trên Hacker News
  • Điều thú vị là Ed Newton-Rex, người từng được tuyển để làm Stable Audio, đã rời công ty ngay sau khi ra mắt vì lo ngại về bản quyền và dữ liệu huấn luyện
    Sau đó ông lập ra https://www.fairlytrained.org/
    Tham khảo: https://x.com/ednewtonrex

    • Với mô hình sinh, nếu nhà sản xuất không công bố kiến trúc mô hình, và đó là mô hình chuyển văn bản sang một phương tiện khác, thì có thể xem như họ đã ủy thác một phần cho bộ mã hóa văn bản, hoặc một chức năng tương tự, được huấn luyện trên dữ liệu không có giấy phép rõ ràng
      Ngay cả với các chủ sở hữu quyền có hàng chục triệu đến hàng trăm triệu mục thư viện như mảnh ảnh hoặc âm thanh, chỉ chưa đến 1 tỷ token văn bản trong các kho lớn cũng khiến hiệu năng bộ mã hóa của mô hình sinh văn bản-sang-phương-tiện-đích quá thấp. Firefly của Adobe cũng nằm trong số này
      Việc có nhiều dữ liệu tương tự trong các thư viện như vậy là đặc biệt hữu ích cũng là một hiểu lầm. Nếu không có bộ mã hóa văn bản mạnh, phần lớn mô hình văn bản-sang-phương-tiện-đích sẽ tạo ra kết quả trông hoặc nghe rất trung bình
      Cách đơn giản nhất để xóa tan nghi ngờ kiểu này là công bố kiến trúc mô hình
      Dù sao, ngay cả nếu tất cả điều đó là đúng, chính lý do chúng ta nói về mô hình khuếch tán và chú ý đến công việc mang tên Fairly Trained là vì có ai đó đã huấn luyện bằng dữ liệu không có giấy phép rõ ràng
    • Gọi ông ấy là “người được tuyển để làm Stable Audio” hơi dễ gây hiểu lầm. Ông ấy giữ một vị trí điều hành, VP sản phẩm của nhóm âm thanh tại Stability
      Đó là một vị trí quan trọng, nhưng nói “người được tuyển để làm” khiến người ta nghĩ đến lập trình viên chính hoặc nhà nghiên cứu
      Xét việc ông ấy là một nhà sáng lập có nền tảng âm nhạc, chuyện rời đi cũng dễ hiểu hơn
    • Đó là một cách diễn giải thú vị, nhưng khi ông ấy gia nhập Stability thì cách huấn luyện Stable Diffusion đã rất nổi tiếng rồi, nên lập trường này cũng khá lạ
    • Dù công ty đằng nào cũng sẽ làm việc đó, chẳng lẽ ông ấy không thể nghĩ trước khi làm việc cho công ty đó sao
      Hoặc có lẽ đó là một bước cần thiết cho mô hình kinh doanh chứng nhận của chính ông ấy
    • Cần phải có giải pháp cho rào cản bản quyền mà các công ty gặp phải khi huấn luyện mô hình
      Tôi thấy việc này không khác gì một nghệ sĩ sáng tác nhạc dưới ảnh hưởng của âm nhạc họ đã nghe cả đời. Về cơ bản thì chính xác là cùng một việc, và âm nhạc hay nghệ thuật không thể được tạo ra trong chân không
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    Cảm giác như đã quay một vòng trở lại thời Internet Explorer những năm 90. Lần này điểm khác biệt phần nào là trình duyệt thống trị là mã nguồn mở
    Ước gì ai đó làm một nút GIF động cho Chrome ghi “Best viewed with Google Chrome”

  • Cũng như Stable Diffusion, trong mô hình này prompt văn bản có lẽ sẽ là cách khó kiểm soát nhất để thu được đầu ra hữu ích
    Có thể dễ dàng hình dung việc dùng MIDI làm đầu vào cùng với ControlNet, biến nó trên thực tế thành một synthesizer mạng nơ-ron

    • Đúng vậy. Từ khi làm dự án giai điệu AI (https://www.melodies.ai/) 2 năm trước, tôi đã nghĩ rằng việc tạo ra một bài hát hoàn chỉnh chất lượng cao chỉ bằng văn bản sẽ chưa khả thi, và cũng không hẳn đáng mong muốn, trong một thời gian
      Thay vào đó, tốt hơn là tập trung dùng AI để hỗ trợ quy trình của nghệ sĩ ở nhiều giai đoạn khác nhau trong sản xuất âm nhạc
    • Với âm nhạc thì có thể như vậy. Nhưng với hiệu ứng âm thanh, tôi nghĩ prompt văn bản là một giao diện người dùng khá tốt
    • Lý tưởng có lẽ là nhập cùng lúc bản ghi âm huýt sáo hoặc hát giai điệu và prompt văn bản, rồi hệ thống xuất ra một track giống như vậy
    • Khi không cần kiểm soát nhiều thì nó hoạt động tốt. Ví dụ prompt như “solo free jazz của nghệ sĩ tenor saxophone, không có nhịp ký”
    • Ngoài prompt văn bản, Stable Diffusion còn có đầu vào nào khác? Ý là những thứ như img2img, ControlNet à?
  • So với các mô hình âm nhạc mới nhất như MusicGen, MusicLM, cái này tốt hơn rất nhiều. Có vẻ cũng có trang sản phẩm có thể dùng theo đăng ký như Midjourney: https://www.stableaudio.com/
    Đáng tiếc là đây không phải mô hình công bố trọng số, và có vẻ cũng không có API. Đây là kiểu tạo âm thanh trong UI theo thuê bao tháng, chứ không phải dạng để nhà phát triển tích hợp hoặc bọc lại

    • Tôi muốn tạo hiệu ứng âm thanh cho một game đang làm, nhưng xem ra có vẻ cần giấy phép enterprise(https://www.stableaudio.com/pricing)
      Tôi thắc mắc vì sao nó không được đưa thẳng vào điều khoản “sản phẩm thương mại có dưới 100 nghìn người dùng hoạt động hằng tháng” mà lại có điều khoản riêng
    • Nghe nói sắp có phiên bản giấy phép CC và API
      Tốc độ phát triển mô hình rất nhanh, nên có vẻ đây sẽ là một năm khá lớn đối với mảng âm nhạc
    • May là vẫn có thể huấn luyện tại nhà. Câu hỏi lớn hơn là dữ liệu
  • Tôi nghĩ vẫn cần một giai đoạn trong đó AI trước hết học được thư viện âm thanh chất lượng cao nghe như thế nào, rồi sau đó áp dụng năng lực đã học để dùng MIDI kích hoạt âm thanh của thư viện đó
    Làm vậy có thể có được cả sự sáng tạo của AI âm nhạc lẫn chất lượng audio hoàn hảo

    • Với AI tạo ảnh, tôi cũng luôn mong có điều tương tự. Thay vì hình ảnh hoàn chỉnh được cải thiện lặp đi lặp lại như phép màu, việc nhìn AI cố gắng vẽ bằng nét cọ hoặc tô màu chắc sẽ ngầu và thú vị hơn nhiều
      Tôi không biết có thể áp dụng dataset hay kiến trúc nào cho việc đó, nhưng chắc chắn sẽ rất thú vị
    • Ví dụ, làm sao dùng MIDI để có được tiếng guitar chơi thô ráp, hay tiếng vọng tinh tế sinh ra từ bản thu trong phòng tắm?
    • Đó chẳng phải là việc suno.ai đang làm sao?
  • Tôi không có ý hạ thấp bước tiến ở đây, và đúng là nó ấn tượng
    Với tư cách một tay trống, “drum solo” thuộc nhóm nhàm chán nhất, lại còn lẫn nhiều âm thanh kỳ lạ. Cuối cùng có lẽ còn tùy vào đối tượng người nghe được nhắm tới
    Nhân tiện, theo chuẩn hiện tại, hiệu ứng âm thanh cũng không nghe chân thực với tai tôi
    Dù vậy, mức tiến bộ là lớn, làm tốt đấy

    • Với tư cách một tay trống, nếu coi nó là thứ diễn ra trên một nhịp 4/4 ổn định thì “drum solo” đó lại bất ngờ khá thú vị để nghe
      Do đặc tính trông như ngẫu nhiên nhưng không hoàn toàn ngẫu nhiên, nó tạo ra các mẫu tiết tấu khá phi truyền thống. Giá mà có thể ứng biến thêm syncopation như thế này
      Đừng bắt tôi chép nó thành bản nhạc
      Độ nhất quán tempo rất tốt. Tuy nhiên tiếng ồn không cần thiết và dư âm cymbal ngẫu nhiên cho thấy giới hạn của mô hình
    • Đây là một thử nghiệm ấn tượng, nhưng vẫn còn rất xa mới tạo được âm nhạc hay âm thanh thực sự dùng được
      Hiện đã có hàng triệu track nhạc thư viện và hiệu ứng âm thanh nghe hay hơn nhiều. Để cạnh tranh với chúng sẽ cần đầu tư khổng lồ vào AI tạo sinh, nhưng không giống văn bản hay hình ảnh, tôi không thấy nó có tính kinh tế
    • Tôi còn thất vọng hơn vì các mẫu nhạc không có đoạn chuyển. Hầu hết bài nhạc đều có chuyển giọng hoặc đoạn chuyển percussion
    • Drum solo cho thấy rõ mô hình này đã bỏ lỡ cốt lõi của drum solo đến mức nào. Tôi không phải tay trống, nhưng nghe hoàn toàn không vui
      Nó nghe như ai đó gõ trống bừa bãi, chỉ đại khái khớp tempo
      Dù vậy, những thứ như nhạc thang máy thì nó làm tạm ổn, và điều đó cũng đúng như dự đoán
  • Thú vị ở chỗ họ công khai mã và hướng dẫn thân thiện cho việc huấn luyện, nhưng lại không công khai mô hình
    Gần như là đang nài nỉ những người ẩn danh nối data loader với tài khoản Apple Music rồi cho chạy thoải mái. Tất nhiên, không ai đang đề xuất làm vậy cả

    • Đoán là, trong điều kiện được cung cấp thư viện audio stock được cấp phép của AudioSparx để huấn luyện, có thể đã có điều khoản không được phân phối lại mô hình kết quả
  • Tôi đã thoáng kỳ vọng vào ý tưởng tạo hiệu ứng âm thanh, nhưng “tiếng bước chân” đó dở đến khó tin

    • Tôi đã thử tạo nhạc trên stableaudio.com, và đúng vậy, nó dở. Dù thế, tốc độ phát triển của các mô hình kiểu này rất nhanh, nên nếu trong 1–2 năm nữa nó trở nên hay đáng kinh ngạc thì tôi cũng sẽ không ngạc nhiên
  • Đúng là không có trọng số công khai phải không? Khó tìm thấy chỗ nào nói rõ là bên nào
    Sửa: À, tôi không biết đây lại là bình luận gây tranh cãi. Giá mà có ai trả lời câu hỏi trước khi downvote thì tốt, nhưng thôi cũng được

  • “Với prompt hiệu ứng âm thanh, chúng tôi thường thêm ‘high-quality, stereo’ vì nó hay có ích.”
    Thật buồn cười khi phát hiện rằng nếu chỉ nói một cách lịch sự với LLM rằng hãy tạo kết quả tốt hơn, thì đầu ra sẽ tốt hơn

    • Đôi khi bạn có thể muốn âm thanh như băng cassette cũ, hoặc tiếng đĩa 78rpm còn cũ hơn và bị xước
      Máy tính, như mọi khi, làm theo điều ta yêu cầu, chứ không phải điều ta định nói