5 điểm bởi GN⁺ 2024-01-02 | 1 bình luận | Chia sẻ qua WhatsApp

OpenVoice: Công nghệ sao chép giọng nói tức thì đa năng

  • OpenVoice là một phương pháp sao chép giọng nói đa năng có thể sao chép một giọng nói chỉ từ một đoạn audio tham chiếu ngắn và tạo giọng nói bằng nhiều ngôn ngữ khác nhau.
  • Công nghệ này cho phép điều khiển linh hoạt phong cách giọng nói, không chỉ tái tạo màu sắc âm sắc của giọng tham chiếu mà còn có thể tinh chỉnh chi tiết các yếu tố như cảm xúc, ngữ điệu, nhịp điệu, khoảng dừng và trọng âm.
  • OpenVoice đạt được khả năng sao chép giọng nói xuyên ngôn ngữ theo kiểu zero-shot ngay cả với những ngôn ngữ không có trong tập dữ liệu huấn luyện người nói quy mô lớn.

Chi tiết kỹ thuật và đóng góp nghiên cứu

  • OpenVoice có chi phí tính toán hiệu quả hơn hàng chục lần so với các API có sẵn trên thị trường, đồng thời cũng cho hiệu năng vượt trội.
  • Để thúc đẩy thêm các tiến bộ trong lĩnh vực nghiên cứu, mã nguồn và các mô hình đã huấn luyện được công khai để mọi người có thể truy cập.
  • Website demo cung cấp các kết quả định tính, và phiên bản nội bộ trước khi công bố đã được người dùng trên toàn thế giới sử dụng hàng chục triệu lần từ tháng 5 đến tháng 10 năm 2023.

Ý kiến của GN⁺

  • OpenVoice thể hiện một bước tiến quan trọng trong công nghệ sao chép giọng nói, đặc biệt khả năng tạo giọng nói với nhiều ngôn ngữ và phong cách khác nhau là rất đột phá.
  • Công nghệ này có tiềm năng ứng dụng trong nhiều lĩnh vực như giáo dục, giải trí và các dịch vụ giọng nói được cá nhân hóa.
  • Mã nguồn và mô hình được công khai được kỳ vọng sẽ góp phần thúc đẩy nhanh hơn nghiên cứu về công nghệ giọng nói.

1 bình luận

 
GN⁺ 2024-01-02
Ý kiến trên Hacker News
  • Người dùng khen ngợi các tác giả vì đã khiến dự án này dễ thử nghiệm. Tuy nhiên, họ có trải nghiệm không mấy hài lòng với việc sao chép giọng nói nói chung. Họ đã cho hệ thống đọc đoạn đầu tiên của trang Wikipedia về một cuốn sách rồi tạo câu tiếp theo, nhưng kết quả nghe giống như do máy tính tạo ra.

    • Tham khảo các liên kết đến mẫu âm thanh được cung cấp và giọng nói đã sao chép (chuyển đổi sang mp3).
    • Cài các gói cần thiết bằng pip và chạy demo_part1.ipynb bằng mẫu âm thanh của chính mình. Notebook chạy gần như ngay lập tức.
  • Người dùng đề nghị được giới thiệu một dự án mã nguồn mở tốt có thể dùng khi muốn sao chép giọng nói trên phần cứng của mình. Họ tò mò về tình hình mới nhất của lĩnh vực sao chép giọng nói mã nguồn mở.

  • Người dùng hỏi liệu có thể dùng công nghệ này (hoặc Eleven Labs) để tạo ra một mô hình giọng nói có thể cắm vào TTS trên điện thoại Android hay không.

    • Bạn của người dùng bị liệt thanh quản nên thường phải gõ trên điện thoại hoặc laptop nhỏ để giao tiếp. Sẽ rất tuyệt nếu người bạn đó có thể phần nào lấy lại "chính" giọng nói của mình bằng các bản ghi âm giọng nói trong quá khứ.
  • Người dùng thích bài báo này. Họ cảm nhận được tinh thần kiểu "đây là điều chúng tôi đã làm và chúng tôi muốn giúp người khác cũng có thể làm được". Họ đặc biệt đánh giá tích cực mục "Remark on Novelty": đóng góp của OpenVoice không phải là phát minh ra các mô-đun con trong kiến trúc mô hình, mà là cung cấp một framework tách biệt, phân ly việc điều khiển phong cách giọng nói và ngôn ngữ khỏi việc sao chép âm sắc.

  • Có cung cấp liên kết GitHub và liên kết checkpoint (tệp zip). Người dùng không thích các liên kết trực tiếp đến tệp zip được lưu trữ trên Amazon nên đã chỉnh lại liên kết checkpoint khi chia sẻ.

  • Người dùng đánh giá các liên kết ví dụ được cung cấp là rất ấn tượng.

  • Người dùng mong YouTube sẽ cấm việc sử dụng công nghệ này hoặc ít nhất cung cấp tính năng lọc các video như vậy.

  • Người dùng kể rằng khi gọi cho một trong những ngân hàng lớn ở Anh, ngân hàng đó vẫn khuyến khích họ đăng ký chương trình "giọng nói của tôi là mật khẩu của tôi". Ở giai đoạn phát triển AI hiện nay, điều này đơn giản chỉ tạo cảm giác quá bất cẩn.

  • Suy nghĩ đầu tiên và kéo dài của người dùng là các cách sử dụng phi đạo đức hoặc mang tính tội phạm của việc sao chép giọng nói vượt xa các cách sử dụng hợp pháp.

  • Người dùng cho rằng RVC hiện là cái tên dẫn đầu trong lĩnh vực sao chép giọng nói mã nguồn mở, và muốn xem nó khác với dự án này như thế nào.