- Tạo giọng nói và hiệu ứng âm thanh bằng cách kết hợp đầu vào giọng nói với prompt văn bản ngôn ngữ tự nhiên
- Có thể dễ dàng tạo âm thanh tùy chỉnh phù hợp với nhiều trường hợp sử dụng khác nhau
- Cải tiến từ Voicebox được công bố hồi đầu năm, mô hình này tích hợp các khả năng tạo sinh và chỉnh sửa cho giọng nói, hiệu ứng âm thanh (như tiếng chó sủa, còi ô tô, tiếng sấm và các âm thanh ngắn, rời rạc khác) và soundscape, đồng thời tối đa hóa khả năng kiểm soát cho từng trường hợp sử dụng thông qua nhiều cơ chế đầu vào khác nhau
- Có thể dùng prompt ngôn ngữ tự nhiên để mô tả âm thanh hoặc kiểu giọng nói muốn tạo
- Có thể tạo soundscape với các prompt như "tiếng sông chảy và chim hót"
- Nhập "một phụ nữ trẻ nói với tông cao và tốc độ nhanh" để tạo ra giọng nói mong muốn
- Bằng cách kết hợp đầu vào giọng nói âm thanh với prompt phong cách bằng văn bản, có thể tổng hợp giọng của cùng một người trong bất kỳ môi trường nào (ví dụ: "trong nhà thờ") hoặc với bất kỳ cảm xúc nào (ví dụ: "nói buồn và chậm")
- Đây là mô hình đầu tiên hỗ trợ đầu vào kép (prompt giọng nói và prompt mô tả văn bản) để thay đổi phong cách giọng nói tự do
- Cho thấy hiệu năng vượt trội hơn 30% so với Voicebox về độ tương đồng phong cách trên nhiều kiểu giọng nói khác nhau
- Meta đang mở Audiobox cho các nhà nghiên cứu và tổ chức học thuật được chọn lọc, có thành tích trong lĩnh vực nghiên cứu giọng nói, nhằm hỗ trợ thúc đẩy công nghệ tiên tiến trong lĩnh vực này và tìm kiếm nhiều đối tác đa dạng có thể giải quyết các khía cạnh AI có trách nhiệm của công việc này
1 bình luận
Meta công bố Voicebox, mô hình AI tạo sinh dành cho giọng nói