ElevenLabs Voice Isolator - tách riêng giọng nói sạch sẽ
(elevenlabs.io)- Loại bỏ tiếng ồn nền trong phim, podcast, phỏng vấn, v.v. và trích xuất riêng phần giọng nói một cách rõ ràng
- Hỗ trợ kích thước tối đa 500MB và âm thanh dài tới 1 giờ
- Không được thiết kế hoặc tối ưu hóa cho giọng hát trong nhạc (dù vẫn có thể thành công tùy nội dung)
- Chưa công bố API cho phát trực tuyến thời gian thực, nhưng dự kiến sẽ sớm ra mắt
- Chi phí sử dụng là 1000 ký tự cho mỗi phút âm thanh
6 bình luận
Điều này có nghĩa là gì nhỉ? Tôi không hiểu vì sao lại tính bằng số ký tự.
Không phải là khái niệm giống như token sao?
Giống như trong GPT, hình ảnh cũng được tính như text token vậy.
Nhìn các dịch vụ khác mà công ty cung cấp thì cũng có thể hiểu được. Có vẻ là theo cách Speech to text to Speech, nên họ tính phí phần văn bản trung gian đó.
Trong khi đó, MVSep, nơi cũng cung cấp dịch vụ tách giọng hát bằng nhiều mô hình mở theo cả hình thức miễn phí lẫn trả phí, cũng đang cung cấp nhiều loại mô hình tách giọng nói/tiếng ồn.
https://mvsep.com
Adobe Podcast AI cũng cung cấp tính năng tương tự. Có vẻ cũng có cả phiên bản miễn phí https://podcast.adobe.com/enhance
Theo bản miễn phí thì có cảm giác tiếng Hàn chưa được tối ưu lắm..