Stable Audio 2.0

(stability.ai)

7 điểm bởi GN⁺ 2024-04-06 | 1 bình luận | Chia sẻ qua WhatsApp

Stable Audio 2.0 đặt ra một tiêu chuẩn mới cho các bản nhạc hoàn chỉnh chất lượng cao do AI tạo ra, với độ dài tối đa 3 phút, âm thanh stereo 44.1kHz
Giới thiệu tính năng tạo audio-to-audio, cho phép người dùng tải lên mẫu âm thanh và chuyển đổi bằng prompt ngôn ngữ tự nhiên
Được huấn luyện độc quyền trên bộ dữ liệu được cấp phép từ thư viện nhạc AudioSparx, đồng thời tôn trọng yêu cầu 'opt out' của nhà sáng tạo và đảm bảo thù lao công bằng
Có thể khám phá mô hình và bắt đầu sáng tạo miễn phí trên website Stable Audio

Tính năng mới

Có thể tạo bài nhạc dài tối đa 3 phút, với bố cục có cấu trúc gồm intro, phát triển và outro, cùng các hiệu ứng âm thanh stereo
Tạo Audio-To-Audio : hỗ trợ tải lên tệp âm thanh để biến ý tưởng thành mẫu hoàn chỉnh. Điều khoản dịch vụ yêu cầu chỉ tải lên tài liệu không có bản quyền, và hệ thống sử dụng nhận diện nội dung nâng cao để ngăn vi phạm bản quyền
Tạo biến thể và hiệu ứng âm thanh : mở rộng khả năng tạo ra nhiều loại âm thanh và hiệu ứng âm thanh, từ tiếng gõ bàn phím đến tiếng hò reo của đám đông hay tiếng ù của đường phố đô thị
Chuyển đổi phong cách : chỉnh sửa liền mạch âm thanh mới tạo hoặc được tải lên trong quá trình sinh để phù hợp với phong cách và tông màu cụ thể của dự án

Nghiên cứu

Kiến trúc mô hình latent diffusion của Stable Audio 2.0 được thiết kế để cho phép tạo các bản nhạc hoàn chỉnh có cấu trúc
Để đạt được điều này, mọi thành phần của hệ thống đều được tinh chỉnh nhằm cải thiện hiệu năng trên các khoảng thời gian dài
Autoencoder mới với mức nén cao nén dạng sóng âm thanh thô thành biểu diễn ngắn hơn nhiều
Diffusion Transformer (DiT) được dùng thay cho U-Net trước đây, và thành thạo hơn trong việc xử lý dữ liệu trên các chuỗi dài

Cơ chế bảo vệ

Giống như mô hình 1.0, phiên bản 2.0 được huấn luyện trên dữ liệu từ AudioSparx bao gồm hơn 800.000 bản nhạc, hiệu ứng âm thanh, tệp stem của nhạc cụ đơn lẻ và metadata văn bản tương ứng
Tất cả nghệ sĩ của AudioSparx đều có tùy chọn 'opt out' khỏi việc huấn luyện mô hình Stable Audio
Để bảo vệ quyền của chủ sở hữu bản quyền, khi tải âm thanh lên hệ thống hợp tác với AudibleMagic và sử dụng công nghệ nhận diện nội dung (ACR) của họ để ngăn vi phạm bản quyền thông qua đối sánh nội dung theo thời gian thực

Stable Radio

Stable Radio là luồng phát trực tiếp 24/7 chỉ gồm các bản nhạc do Stable Audio tạo ra, hiện đang được phát trên kênh YouTube của Stable Audio
Có thể khám phá mô hình và bắt đầu sáng tạo miễn phí trên website Stable Audio.

Ý kiến của GN⁺

Stable Audio 2.0 có tiềm năng mang lại đổi mới cho ngành công nghiệp âm nhạc bằng cách cung cấp cho nhà sản xuất âm nhạc một công cụ sáng tạo ứng dụng AI. Khả năng hiểu ý định của người dùng thông qua xử lý ngôn ngữ tự nhiên và chuyển nó thành âm nhạc có thể đơn giản hóa quy trình sáng tác, đồng thời mở ra cơ hội để nhiều người hơn tham gia sản xuất âm nhạc.
Một trong những vấn đề mà công nghệ này có thể mang lại là bản quyền. Dù công ty cho biết đã áp dụng các biện pháp để ngăn vi phạm bản quyền, các vấn đề pháp lý liên quan đến quyền sở hữu bản quyền của nội dung do AI tạo ra vẫn còn phức tạp.
Một điểm cần cân nhắc khi đưa AI vào sản xuất âm nhạc là cách nhìn nhận về tính nguyên bản và tính nghệ thuật của âm nhạc do AI tạo ra. Cần có thảo luận về việc liệu AI có thể mô phỏng hoặc thay thế sự sáng tạo của con người hay không, và điều đó sẽ ảnh hưởng thế nào đến ngành âm nhạc.
Những lợi ích có thể đạt được khi dùng công cụ tạo nhạc bằng AI gồm rút ngắn thời gian sáng tác, thử nghiệm nhiều phong cách và thể loại âm nhạc khác nhau, và cho phép người sáng tạo làm nhạc ngay cả khi không có kiến thức sâu về lý thuyết âm nhạc hay kỹ năng chơi nhạc cụ.
Xét đến tác động tích cực mà công nghệ này có thể mang lại cho giáo dục âm nhạc, nó có thể giúp sinh viên học lý thuyết âm nhạc khám phá và hiểu rõ hơn các phong cách và cấu trúc âm nhạc đa dạng.

1 bình luận

GN⁺ 2024-04-06

Ý kiến trên Hacker News

Nhạc AI khá ấn tượng, nhưng vẫn có cảm giác thiếu điều gì đó vì dường như không thể cảm nhận được ý đồ và cảm xúc có trong âm nhạc do con người tạo ra.
Không thấy đề cập đến bản quyền của âm thanh do AI tạo ra, nên có một vấn đề quan trọng về quyền sở hữu đầu ra.
Tôi đưa cho AI một đoạn beat mình làm từ 10 năm trước, và nó nghe như thể bỏ dàn stereo vào máy giặt. Có lẽ cần một bộ dữ liệu lớn hơn, nhưng tôi đang cân nhắc đăng ký.
Việc Stability AI sử dụng bộ dữ liệu được cấp phép để bảo đảm người sáng tạo được đền bù công bằng là điều đáng khen.
Xét về mặt kỹ thuật thì rất ấn tượng, nhưng nhạc do AI tạo ra khá tầm thường. Một nghệ sĩ nhạc điện tử hiện đại có thể làm tốt hơn.
Thật tiếc vì Stability AI không phải mã nguồn mở. Hy vọng họ sẽ không đi theo con đường như OpenAI.
AI đang cố tái cấu trúc các mẫu âm thanh theo cách tương tự, nhưng vẫn khác với tiếng trống và guitar được chơi thật. Dù vậy vẫn rất thú vị, và tôi mong chờ những phiên bản cải tiến hơn trong tương lai.
Tôi đã chán kiểu nhạc synthwave nghe khi lập trình và đang tìm thứ gì đó mới, nên có vẻ AI có thể tạo ra playlist "đủ tốt" vô hạn.
Tôi không tạo ra được thứ gì thú vị bằng AI. Trang web cũng khó sử dụng.
Tôi tự hỏi liệu có giao diện kiểu ComfyUI cho các mô hình âm thanh hay không.

Stable Audio 2.0

Tính năng mới

Nghiên cứu

Cơ chế bảo vệ

Stable Radio

Ý kiến của GN⁺

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News