MusicLM, AI tạo nhạc từ văn bản
(google-research.github.io)- Bài báo nghiên cứu do Google Research công bố
- Tạo ra âm nhạc bám rất sát mô tả bằng văn bản: "giai điệu violin trầm lắng trên nền riff guitar bị distortion"
- Tạo ra nhạc 24kHz dài vài phút bằng cách mô hình hóa theo hướng phân cấp giữa các chuỗi
- Vượt trội hơn hẳn các hệ thống hiện có về cả chất lượng âm thanh lẫn mức độ tuân thủ mô tả văn bản
- Cũng có thể biến đổi phong cách giai điệu ở dạng huýt sáo hoặc ngân nga
- Có thể tạo âm thanh theo chế độ kể chuyện bằng cách cung cấp tuần tự nhiều prompt
- Công bố bộ dữ liệu MusicCaps gồm 5,5 nghìn cặp nhạc-văn bản
2 bình luận
Thật ấn tượng khi chỉ bằng văn bản mà cũng có thể tạo ra chất lượng đến mức này!
Tuy vậy, hiện tại vẫn còn khá nhiều thứ nghe rất gượng gạo, nên có lẽ nó sẽ được dùng nhiều hơn như một công cụ để các nhà sáng tạo lấy ý tưởng.
Riffusion - Stable Diffusion được fine-tune để tạo nhạc