Audiobox - Mô hình nền tảng mới của Meta cho tạo sinh âm thanh

xguru · 2023-12-12T09:40:47+09:00

Tạo giọng nói và hiệu ứng âm thanh bằng cách kết hợp đầu vào giọng nói với prompt văn bản ngôn ngữ tự nhiên Có thể dễ dàng tạo âm thanh tùy chỉnh phù hợp với nhiều trường hợp sử dụng khác nhau Cải tiến từ Voicebox được công bố hồi đầu năm, mô hình này tích hợp các khả năng tạo sinh và chỉnh sửa cho giọng nói, hiệu ứng âm thanh (như tiếng chó sủa, còi ô tô, tiếng sấm và các âm thanh ngắn, rời rạc khác) và soundscape, đồng thời tối đa hóa khả năng kiểm soát cho từng trường hợp sử dụng thông qua nhiều cơ chế đầu vào khác nhau Có thể dùng prompt ngôn ngữ tự nhiên để mô tả âm thanh hoặc kiểu giọng nói muốn tạo Có thể tạo soundscape với các prompt như "tiếng sông chảy và chim hót" Nhập "một phụ nữ trẻ nói với tông cao và tốc độ nhanh" để tạo ra giọng nói mong muốn Bằng cách kết hợp đầu vào giọng nói âm thanh với prompt phong cách bằng văn bản, có thể tổng hợp giọng của cùng một người trong bất kỳ môi trường nào (ví dụ: "trong nhà thờ") hoặc với bất kỳ cảm xúc nào (ví dụ: "nói buồn và chậm") Đây là mô hình đầu tiên hỗ trợ đầu vào kép (prompt giọng nói và prompt mô tả văn bản) để thay đổi phong cách giọng nói tự do Cho thấy hiệu năng vượt trội hơn 30% so với Voicebox về độ tương đồng phong cách trên nhiều kiểu giọng nói khác nhau Meta đang mở Audiobox cho các nhà nghiên cứu và tổ chức học thuật được chọn lọc, có thành tích trong lĩnh vực nghiên cứu giọng nói, nhằm hỗ trợ thúc đẩy công nghệ tiên tiến trong lĩnh vực này và tìm kiếm nhiều đối tác đa dạng có thể giải quyết các khía cạnh AI có trách nhiệm của công việc này

(ai.meta.com)

8 điểm bởi xguru 2023-12-12 | 1 bình luận | Chia sẻ qua WhatsApp

Tạo giọng nói và hiệu ứng âm thanh bằng cách kết hợp đầu vào giọng nói với prompt văn bản ngôn ngữ tự nhiên
- Có thể dễ dàng tạo âm thanh tùy chỉnh phù hợp với nhiều trường hợp sử dụng khác nhau
Cải tiến từ Voicebox được công bố hồi đầu năm, mô hình này tích hợp các khả năng tạo sinh và chỉnh sửa cho giọng nói, hiệu ứng âm thanh (như tiếng chó sủa, còi ô tô, tiếng sấm và các âm thanh ngắn, rời rạc khác) và soundscape, đồng thời tối đa hóa khả năng kiểm soát cho từng trường hợp sử dụng thông qua nhiều cơ chế đầu vào khác nhau
Có thể dùng prompt ngôn ngữ tự nhiên để mô tả âm thanh hoặc kiểu giọng nói muốn tạo
- Có thể tạo soundscape với các prompt như "tiếng sông chảy và chim hót"
- Nhập "một phụ nữ trẻ nói với tông cao và tốc độ nhanh" để tạo ra giọng nói mong muốn
Bằng cách kết hợp đầu vào giọng nói âm thanh với prompt phong cách bằng văn bản, có thể tổng hợp giọng của cùng một người trong bất kỳ môi trường nào (ví dụ: "trong nhà thờ") hoặc với bất kỳ cảm xúc nào (ví dụ: "nói buồn và chậm")
- Đây là mô hình đầu tiên hỗ trợ đầu vào kép (prompt giọng nói và prompt mô tả văn bản) để thay đổi phong cách giọng nói tự do
Cho thấy hiệu năng vượt trội hơn 30% so với Voicebox về độ tương đồng phong cách trên nhiều kiểu giọng nói khác nhau
Meta đang mở Audiobox cho các nhà nghiên cứu và tổ chức học thuật được chọn lọc, có thành tích trong lĩnh vực nghiên cứu giọng nói, nhằm hỗ trợ thúc đẩy công nghệ tiên tiến trong lĩnh vực này và tìm kiếm nhiều đối tác đa dạng có thể giải quyết các khía cạnh AI có trách nhiệm của công việc này

1 bình luận

xguru 2023-12-12

Meta công bố Voicebox, mô hình AI tạo sinh dành cho giọng nói

Audiobox - Mô hình nền tảng mới của Meta cho tạo sinh âm thanh

Bài viết liên quan

1 bình luận