- Bài báo nghiên cứu do Google Research công bố
- Tạo ra âm nhạc bám rất sát mô tả bằng văn bản: "giai điệu violin trầm lắng trên nền riff guitar bị distortion"
- Tạo ra nhạc 24kHz dài vài phút bằng cách mô hình hóa theo hướng phân cấp giữa các chuỗi
- Vượt trội hơn hẳn các hệ thống hiện có về cả chất lượng âm thanh lẫn mức độ tuân thủ mô tả văn bản
- Cũng có thể biến đổi phong cách giai điệu ở dạng huýt sáo hoặc ngân nga
- Có thể tạo âm thanh theo chế độ kể chuyện bằng cách cung cấp tuần tự nhiều prompt
- Công bố bộ dữ liệu MusicCaps gồm 5,5 nghìn cặp nhạc-văn bản
Chưa có bình luận nào.