5 điểm bởi GN⁺ 2024-04-28 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu OpenVoice V1

  • Các ưu điểm của OpenVoice như sau:
    • Sao chép âm sắc chính xác: OpenVoice có thể sao chép chính xác âm sắc tham chiếu và tạo giọng nói bằng nhiều ngôn ngữ và giọng vùng miền khác nhau.
    • Kiểm soát linh hoạt phong cách giọng nói: OpenVoice có thể điều khiển chi tiết phong cách giọng nói như cảm xúc và ngữ điệu, cùng các tham số phong cách khác như nhịp điệu, khoảng nghỉ và ngữ điệu.
    • Sao chép giọng nói đa ngôn ngữ zero-shot: Cả ngôn ngữ của giọng được tạo ra lẫn ngôn ngữ của giọng tham chiếu đều không cần phải xuất hiện trong tập dữ liệu huấn luyện đa ngôn ngữ quy mô lớn về người nói.

Giới thiệu OpenVoice V2

  • OpenVoice V2 đã được phát hành vào tháng 4 năm 2024, bao gồm toàn bộ tính năng của V1 và bổ sung thêm các khả năng sau:
    • Chất lượng âm thanh tốt hơn: OpenVoice V2 áp dụng một chiến lược huấn luyện khác để mang lại chất lượng âm thanh tốt hơn.
    • Hỗ trợ đa ngôn ngữ gốc: Tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Trung, tiếng Nhật và tiếng Hàn được hỗ trợ mặc định trong OpenVoice V2.
    • Miễn phí cho sử dụng thương mại: Từ tháng 4 năm 2024, cả V2 và V1 đều được phát hành theo giấy phép MIT và miễn phí cho sử dụng thương mại.

Tình hình sử dụng OpenVoice

  • OpenVoice đã cung cấp tính năng sao chép giọng nói tức thì cho myshell.ai từ tháng 5 năm 2023.
  • Tính đến tháng 11 năm 2023, mô hình sao chép giọng nói đã được người dùng trên toàn thế giới sử dụng hàng chục triệu lần, và nền tảng này đã chứng kiến mức tăng trưởng người dùng bùng nổ.

Những người đóng góp chính

  • Zengyi Qin (MIT, MyShell)
  • Wenliang Zhao (Tsinghua University)
  • Xumin Yu (Tsinghua University)
  • Ethan Sun (MyShell)

Cách sử dụng

  • Để biết cách sử dụng chi tiết, hãy tham khảo usage.

Các vấn đề thường gặp

  • Với các câu hỏi và trả lời phổ biến, hãy tham khảo QA.
  • Danh sách câu hỏi và trả lời sẽ được cập nhật định kỳ.

Tham gia cộng đồng

  • Hãy tham gia cộng đồng Discord và chọn vai trò 'Developer' khi đăng ký để nhận quyền truy cập độc quyền vào các kênh dành riêng cho nhà phát triển.
  • Đừng bỏ lỡ những cuộc thảo luận hữu ích và cơ hội hợp tác.

Trích dẫn

  • Phần triển khai này dựa trên một số dự án xuất sắc như TTS, VITS và VITS2.
  • Xin cảm ơn những đóng góp tuyệt vời của họ.

Giấy phép

  • OpenVoice V1 và V2 sử dụng giấy phép MIT, miễn phí cho cả mục đích thương mại và nghiên cứu.

Ý kiến của GN⁺

  • OpenVoice là một công cụ mạnh mẽ giúp dễ dàng tạo ra giọng nói với nhiều ngôn ngữ và cảm xúc khác nhau. Điều này có vẻ có thể được ứng dụng trong nhiều lĩnh vực như phim ảnh, hoạt hình và game.

  • Tuy nhiên, vì có thể sao chép giọng nói quá dễ dàng nên cũng tồn tại khả năng bị lạm dụng. Ví dụ, có thể phát sinh các vấn đề như tạo video deepfake bằng giọng của người nổi tiếng mà không được cho phép. Có vẻ cần có các biện pháp đối phó cho vấn đề này.

  • Các sản phẩm thương mại có tính năng tương tự OpenVoice gồm có Lyrebird, Resemble.ai và Descript. Chúng chủ yếu được sử dụng cho hỗ trợ khách hàng, tổng đài và lồng tiếng video.

  • Khi triển khai OpenVoice, cần lưu ý đến các vấn đề về bảo mật dữ liệu và bản quyền. Ngoài ra, cũng cần обязательно kiểm tra độ tự nhiên của giọng nói được tạo ra và độ chính xác của phát âm.

  • Vì được công bố dưới dạng mã nguồn mở, nên có thể kỳ vọng hiệu năng sẽ tiếp tục được cải thiện nhờ sự tham gia của nhiều nhà phát triển khác nhau. Liệu nó có thể cung cấp chất lượng âm thanh và tính năng ở mức sản phẩm thương mại hay không vẫn là điều đáng chú ý.

1 bình luận

 
GN⁺ 2024-04-28
Ý kiến trên Hacker News
  • Gần đây đã xảy ra một vụ việc trong đó huấn luyện viên đội thể thao dùng AI để tạo một đoạn âm thanh giả mạo lời phát biểu phân biệt chủng tộc của hiệu trưởng nhằm vu khống. Điều này cho thấy luật pháp và cơ quan thực thi pháp luật cần nỗ lực theo kịp tốc độ phát triển của công nghệ AI.
  • Các vấn đề như bằng chứng lịch sử giả, rò rỉ giả, sự ủng hộ giả, quảng cáo giả được dự đoán sẽ trở nên nghiêm trọng hơn. Trong bối cảnh ngay cả các bài báo dạng văn bản đơn thuần cũng không được kiểm chứng đúng mức, thiệt hại do công nghệ AI gây ra sẽ còn lớn hơn.
  • Công nghệ này chỉ bắt chước tông giọng chứ không thực sự sao chép giọng nói. Tài liệu có nêu rõ điều này nhưng vẫn gọi là "sao chép giọng nói", gây ra sự nhầm lẫn.
  • Khó tìm được trường hợp sử dụng chính đáng cho công nghệ này. Nó có nhiều khả năng bị lạm dụng để đánh lừa người khác.
  • Với những người muốn tạo ra các thứ thú vị bằng công nghệ AI, điều quan trọng là tìm được nơi tốt để thu thập thông tin liên quan. Mối quan tâm nằm ở các quy trình làm việc thú vị và những con người sử dụng AI hơn là chỉ bản thân công nghệ AI.
  • So với các công nghệ AI sao chép giọng nói đã được công bố trước đây, bản phát hành lần này có vẻ không có điểm gì đặc biệt tệ. Có quá nhiều sự bi quan và phản ứng phóng đại.
  • Hy vọng công nghệ sao chép giọng nói sẽ giúp tác giả có thể tạo sách nói bằng chính giọng của mình. Có thể không tốt bằng tự đọc, nhưng giọng của tác giả sẽ hấp dẫn hơn so với diễn viên lồng tiếng.
  • Sẽ tốt hơn nếu README có kèm mã ví dụ.
  • Tôi đã thử tự "sao chép" giọng của mình, nhưng kết quả hoàn toàn không giống. Tôi đã mong được nghe giọng mình nói tiếng Pháp, nhưng không phải vậy. Tiêu đề "sao chép giọng nói tức thì" có phần dễ gây hiểu lầm.