Nvidia công bố Fugatto, mô hình tạo âm thanh AI linh hoạt
(blogs.nvidia.com)- Mô hình AI tạo âm thanh 'Fugatto' có thể dùng văn bản để điều khiển đầu ra âm thanh
- Có thể thực hiện nhiều tác vụ như tạo nhạc, thay đổi ngữ điệu hoặc cảm xúc của giọng nói, thêm/bớt nhạc cụ trong bản nhạc hiện có
- Cũng có thể tạo ra những âm thanh hoàn toàn mới chưa từng được nghe trước đây
- Fugatto có thể nhận nhạc, giọng nói và âm thanh môi trường dưới dạng văn bản hoặc tệp âm thanh để tạo mới hoặc chuyển đổi
- Được thiết kế để hiểu và tạo âm thanh như con người
-
"Cho phép học đa nhiệm không giám sát (Unsupervised), mở ra tiềm năng mới ở quy mô dữ liệu và mô hình"
Nhiều trường hợp sử dụng khác nhau
- Sản xuất âm nhạc: có thể thử nghiệm và chỉnh sửa ngay phong cách bài hát, giọng hát và nhạc cụ
- Quảng cáo: tùy biến giọng nói theo từng khu vực và tình huống để tối ưu chiến dịch
- Học ngôn ngữ: cung cấp nội dung học tập cá nhân hóa bằng giọng nói do người dùng chọn
- Phát triển game: biến đổi hoặc tạo mới tài sản âm thanh tùy theo tình huống trong game
- Tạo ra âm thanh mới: giống như "ghế bơ" của AI tạo ảnh
- Ví dụ, có thể tạo âm thanh kèn trumpet sủa như chó (bark) hoặc saxophone kêu như mèo (meow)
- Cũng có thể xử lý các tác vụ chưa được tiền huấn luyện, chẳng hạn tạo giọng hát chất lượng cao từ prompt văn bản thông qua tinh chỉnh và một lượng nhỏ dữ liệu bài hát
Cung cấp Artistic Control (khả năng kiểm soát nghệ thuật) cho người dùng
- Các tính năng điều khiển hướng người dùng
- Kết hợp nhiều chỉ thị thông qua công nghệ ComposableART
- Có thể tinh chỉnh chi tiết chỉ thị văn bản: ví dụ kết hợp giọng Pháp với cảm xúc buồn
- Điều khiển sự tiến triển của âm thanh bằng nội suy theo thời gian: ví dụ tạo khung cảnh mưa với tiếng sấm dần tan biến
- Mang đến cho người dùng sự tự do sáng tạo âm thanh chưa từng có
Đặc điểm kỹ thuật
- Mô hình AI tạo sinh được huấn luyện với 250 triệu tham số bằng hệ thống NVIDIA DGX và GPU H100
- Tăng cường hỗ trợ đa ngôn ngữ và nhiều giọng nhờ sự hợp tác của nhóm nghiên cứu đa quốc gia
- Tạo bộ dữ liệu huấn luyện từ hàng triệu mẫu âm thanh
- Cải thiện hiệu năng bằng cách phân tích lại mối quan hệ giữa các dữ liệu
- Mất hơn 1 năm để thu thập dữ liệu huấn luyện và mở rộng mô hình
- Nhóm nghiên cứu cho biết họ đã rất bất ngờ khi lần đầu thành công tạo nhạc từ prompt văn bản, và một bản demo kết hợp nhạc điện tử với tiếng chó sủa đã khiến mọi người bật cười, qua đó cho thấy tiềm năng trong tương lai
Chưa có bình luận nào.