OpenVoice: công nghệ sao chép giọng nói tức thì

(github.com/myshell-ai)

5 điểm bởi GN⁺ 2024-04-28 | 1 bình luận | Chia sẻ qua WhatsApp

OpenVoice là dự án sao chép giọng nói tức thì, sao chép âm sắc tham chiếu để tạo giọng nói bằng nhiều ngôn ngữ và giọng địa phương; dự án đã công bố các tính năng của V1 và V2
V1 hỗ trợ sao chép âm sắc chính xác, điều khiển phong cách giọng nói như cảm xúc, ngữ điệu, nhịp điệu, khoảng dừng và biến đổi ngữ điệu, cũng như sao chép giọng nói xuyên ngôn ngữ zero-shot
OpenVoice V2 được công bố vào tháng 4/2024; ngoài việc bao gồm các tính năng của V1, phiên bản này cung cấp chất lượng âm thanh tốt hơn nhờ một chiến lược huấn luyện khác
V2 hỗ trợ đa ngôn ngữ native gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Trung, tiếng Nhật và tiếng Hàn; cả V1 và V2 đều có thể sử dụng miễn phí cho mục đích thương mại và nghiên cứu theo MIT License
OpenVoice đã được dùng cho tính năng sao chép giọng nói tức thì của myshell.ai từ tháng 5/2023, và đến tháng 11/2023 đã được người dùng trên toàn thế giới sử dụng hàng chục triệu lần

Các tính năng sao chép giọng nói mà OpenVoice cung cấp

OpenVoice là một dự án dành cho sao chép giọng nói tức thì
Bài báo liên quan được công bố dưới dạng bài báo arXiv

Các tính năng cốt lõi của OpenVoice V1

Sao chép âm sắc chính xác
- Có thể sao chép chính xác âm sắc tham chiếu
- Có thể tạo giọng nói bằng nhiều ngôn ngữ và giọng địa phương
Điều khiển phong cách giọng nói linh hoạt
- Có thể điều khiển chi tiết cảm xúc và ngữ điệu
- Các tham số phong cách như nhịp điệu, khoảng dừng và biến đổi ngữ điệu cũng thuộc phạm vi điều khiển
Sao chép giọng nói xuyên ngôn ngữ zero-shot
- Ngôn ngữ của giọng nói được tạo và ngôn ngữ của giọng nói tham chiếu không nhất thiết phải nằm trong bộ dữ liệu huấn luyện đa ngôn ngữ, đa người nói quy mô lớn

Những thay đổi trong OpenVoice V2

OpenVoice V2 được công bố vào tháng 4/2024
V2 bao gồm tất cả tính năng của V1
Áp dụng một chiến lược huấn luyện khác để cung cấp chất lượng âm thanh tốt hơn
Hỗ trợ native tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Trung, tiếng Nhật và tiếng Hàn
Từ tháng 4/2024, cả V2 và V1 đều được phát hành theo MIT License, cho phép sử dụng thương mại miễn phí

Sử dụng thực tế và phạm vi công bố

OpenVoice đã vận hành tính năng sao chép giọng nói tức thì của myshell.ai từ tháng 5/2023
Đến tháng 11/2023, mô hình sao chép giọng nói đã được người dùng trên toàn thế giới sử dụng hàng chục triệu lần
README có kèm bản demo Video

Cách sử dụng, giấy phép và các dự án nền tảng

Hướng dẫn sử dụng chi tiết có trong tài liệu usage của kho lưu trữ
Các câu hỏi và trả lời thường gặp được đề cập trong tài liệu QA của kho lưu trữ
OpenVoice V1 và V2 sử dụng MIT License, miễn phí cho cả mục đích thương mại lẫn nghiên cứu
Phần triển khai dựa trên TTS, VITS, VITS2

1 bình luận

GN⁺ 2024-04-28

Ý kiến trên Hacker News

Chuyện kiểu này đã xảy ra ngay trong vài ngày gần đây: cảnh sát cho biết trưởng bộ phận thể thao đã dùng AI tạo một đoạn âm thanh giả nhằm vu cho hiệu trưởng có phát ngôn phân biệt chủng tộc
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- Vì vậy công nghệ này cần được phổ biến và được biết đến rộng rãi. Mọi người cần cảnh giác hơn, không tin bừa mọi thứ, và phải kiểm tra nguồn
  Dĩ nhiên phần lớn vẫn sẽ không fact-check
Chúng ta đã bước vào thời kỳ mà luật pháp và thực thi phải chạy theo cực nhanh
Giờ đây đã có thể tạo ra bằng chứng lịch sử giả, rò rỉ giả, tuyên bố ủng hộ giả, cho tới quảng cáo giả
Người ta vốn đã lười xác minh cả những bài đăng chữ đơn thuần trên Facetok, nên về sau có lẽ còn tệ hơn nhiều
- Có vẻ như đây là dòng chảy từ siêu bình thường hóa sang siêu thực
  Tôi vẫn nói với bạn bè rằng trong 5–10 năm nữa, thứ duy nhất có thể tin gần như 100% sẽ là những gì đang diễn ra ngay trước mắt mình
  Bạn vẫn có thể chọn tin vào các cơ quan báo chí uy tín đã kiểm chứng, nhưng vì phân cực, một bộ phận lớn của thế giới sẽ cho rằng họ đã bị mua chuộc và gạt mọi thứ thành giả mạo
  Cứ nhìn Sora hay các mô hình giọng nói mới là thấy. Mới vài ngày trước, một huấn luyện viên thể thao trung học đã bị bắt vì sao chép giọng hiệu trưởng để bắt ông ấy nói những điều khủng khiếp, và bị lộ vì dùng chính email của mình
  Ghép điều đó với việc mô hình Phi-mini mới của Microsoft, với 3,8 tỷ tham số, đang tiến gần hiệu năng GPT-3.5 thì còn đáng sợ hơn. GPT-3.5 có 175 tỷ tham số, và việc tối ưu hóa công nghệ này mới chỉ diễn ra khoảng 5 năm
  Tôi muốn xuống khỏi chuyến tàu lượn điên rồ của Mr Bones
- Niềm tin là một sự phụ thuộc cốt lõi của con người. Không chỉ với văn minh, mà cả với những cộng đồng rất nhỏ, và với sự trao đổi cơ bản của ý tưởng, hàng hóa, dịch vụ
  Không thể dự đoán rủi ro mà AI tạo sinh sẽ phá hủy niềm tin sẽ diễn ra ra sao, nhưng tôi vẫn lạc quan rằng cuối cùng sự sáng tạo của con người sẽ thắng
- Các tệp âm thanh kỹ thuật số vốn khó có thể được xem là bằng chứng của bất cứ điều gì. Ngay cả khi chưa có sao chép giọng nói, người ta vẫn có thể cắt dán và chỉnh sửa âm thanh để tạo ra gần như bất cứ thứ gì mình muốn
  Chỉ cần luyện tập thì bắt chước cách nói của người khác cũng không hề khó, và đó là điều cả diễn viên nghiệp dư lẫn chuyên nghiệp vẫn thường làm
  Điều thay đổi chỉ là việc đó nay trở nên dễ hơn, và điều đó lẽ ra còn giúp mọi người hiểu rằng loại “bằng chứng” như vậy vốn khó đáng tin đến mức nào
- Đây cũng là vấn đề lớn, nhưng vấn đề lớn hơn là các cuộc gọi spam lấy được khoảng 10 giây giọng nói của tôi rồi gọi cho ngân hàng hoặc người thân bằng chính giọng của tôi
  Android và iOS nên hỗ trợ sẵn bộ biến đổi giọng nói thời gian thực như tính năng mặc định, kèm nút tắt nhanh trong trình quay số và tùy chọn tắt cho các liên hệ quen biết
- Tôi ngày càng thấy việc thổi phồng quanh cách AI bị dùng cho tội phạm hay mục đích xấu cũng giống như những kiểu thổi phồng khác về AI
  Chắc chắn sẽ có những ứng dụng thực sự gây xáo trộn, nhưng khác biệt giữa những gì công nghệ này mới cho phép làm được và những gì vốn đã làm được từ trước là nhỏ hơn nhiều so với cách mọi người thường nói
Đây không hẳn là sao chép, mà gần hơn với việc sao chép âm sắc giọng nói. Ngay cả tài liệu cũng ghi như vậy, nhưng người ta vẫn gọi là voice cloning
Tôi đã thử trực tiếp, và thay vì chất giọng Lancashire nhẹ nhàng thường ngày của tôi thì nó nghe như giọng Mỹ, hoàn toàn không giống tôi
- Dùng https://voiceshopai.github.io có vẻ sẽ đưa nó trở lại gần chất giọng gốc hơn
  VoiceShopAi có thể đổi giọng trẻ thành già, nam thành nữ, hoặc sang giọng của bất kỳ quốc gia nào
  Tôi tìm thấy nó trong https://github.com/metame-ai/awesome-audio-plaza, nơi theo dõi các mục mới trong lĩnh vực âm thanh
- Tôi cũng thử với giọng của mình, và may mắn là nó hoàn toàn không nghe giống tôi
- Tiêu đề hay tên gọi này không thực sự hay. Ở mức độ meta hơn, đôi lúc tôi có cảm giác bình luận HN dạo này ngày càng giống phản ứng theo kiểu tiêu đề trên Reddit, thay vì xem xét nguyên văn hay bản thân công nghệ
Ca sử dụng chính đáng của công nghệ này là gì? Tôi có thể nghĩ ra cả trăm cách để lừa người khác, nhưng lại khó nghĩ ra tình huống nào mà ai đó thật sự muốn sao chép hay tái tạo giọng của chính mình
- Có thể dùng khi đã thu podcast xong nhưng chỉ muốn sửa vài từ, khỏi phải thu lại phiền phức
  Nhà phát triển game indie cũng có thể tạo ra các NPC sống động với giọng riêng, nơi hội thoại được vận hành bởi mô hình ngôn ngữ lớn
  Trong quá trình làm phim, người ta cũng có thể điều chỉnh một số câu thoại với sự đồng ý của diễn viên
  Nó cũng cần thiết cho những người đang dần mất giọng vì vấn đề sức khỏe nhưng vẫn muốn tiếp tục giao tiếp
  Công nghệ này rõ ràng có các ca sử dụng chính đáng. Cá nhân tôi nghĩ cách dùng sai trái lấn át cách dùng chính đáng, nhưng nói rằng nó không có ứng dụng hợp pháp nào thì không công bằng
  Nên hình sự hóa hành vi lạm dụng và quản lý nghiêm ngặt, chứ không phải cấm hoàn toàn. Với phần mềm và các mô hình nhỏ, lệnh cấm cũng khá khó thực thi
- Việc các tác nhân như Alexa dùng giọng tùy biến tốt hơn chỉ còn là vấn đề thời gian
  Sách nói cũng có thể được đọc bằng giọng riêng cho từng nhân vật thay vì chỉ một người đọc cố diễn
  Nó cũng hữu ích khi bạn bị cảm nhưng vẫn muốn phát biểu mà không ho khan
  Với âm thanh, trong truyền tải băng thông thấp có thể chỉ gửi văn bản rồi phát lại bằng mô hình giọng nói cục bộ
  Nó cũng có thể được dùng để trò chuyện với người thân yêu đã qua đời
  Hoặc đơn giản là dùng cho mục đích gây cười, hài hước
- Có vẻ bạn chưa nghĩ kỹ lắm. Điều đầu tiên tôi nghĩ đến là dùng sao chép giọng của chính mình cho dịch thời gian thực
  Nếu giả định bản dịch hoàn hảo sẽ không bị dùng ác ý, thì đây là một ứng dụng luôn hữu ích và hoàn toàn không xấu xa
- Tôi có một người bạn bị liệt thanh quản nên thường phải gõ trên điện thoại hoặc laptop nhỏ để giao tiếp
  Nếu từ các bản ghi âm giọng cũ mà có thể khôi phục lại ít nhất phần nào giọng “của chính anh ấy”, thì anh ấy chắc sẽ rất thích
  Đáng tiếc là tôi vẫn chưa thấy công cụ nào tạo ra mô hình giọng nói có thể cắm vào Android TTS mà anh ấy đang dùng hoặc vào Windows
- Tôi chơi Counter-Strike khá nhiều, và việc mọi người chửi đội đối phương bằng giọng Joe Biden thì khá buồn cười
Nếu muốn tiếp tục theo dõi lĩnh vực này thì nên xem ở đâu? Tôi rất quan tâm vì muốn sáng tạo bằng những công cụ như thế này, nhưng giọng của tôi không thực sự phù hợp cho mục đích đó
Để làm cho tự nhiên hơn thì có vẻ chuyển đổi giọng nói sang giọng nói sẽ tốt hơn chuyển văn bản thành giọng nói. Tôi đã thử qua một chút các công cụ như RVC, nhưng có cảm giác là đang bỏ lỡ rất nhiều quy trình làm việc tuyệt vời giữa biển nhiễu AI
Tôi đặc biệt tò mò về những quy trình làm việc thú vị và những người làm ra các thứ vui ho với AI
- Chắc chắn là Twitter. Mọi thứ đều được công bố và thảo luận ở đó
Ở đây có khá nhiều thuyết tận thế và kịch tính hóa quá mức. So với các phương pháp AI nhân bản giọng nói đã có thể dùng công khai từ khoảng 1 năm trước, vì sao lần công bố này lại tệ hơn đến vậy?
Tôi thực sự mong chờ sách nói được đọc bằng giọng của tác giả nhờ nhân bản giọng nói
Dĩ nhiên sẽ không hay bằng việc chính tác giả đọc, nhưng trong giọng của tác giả có điều gì đó mà diễn viên lồng tiếng không thể mang lại. Các diễn viên lồng tiếng thường phát âm quá chung chung và cường điệu, nên cá nhân tôi cảm thấy ít kết nối hơn
- Điều mà tác giả bổ sung, ngay cả khi họ không phải người đọc chuyên nghiệp, là ngữ điệu khớp chính xác với cách các câu trong sách được dự định sẽ được nói ra và được hiểu như thế nào
  AI sẽ không làm được điều đó. Dù có tốt đến đâu thì cũng không thể đọc được suy nghĩ của tác giả. Kết quả sẽ còn chung chung hơn cả người đọc là con người
- Ngược lại, chính điểm đó mới là điều tôi lo. Tôi không hiểu vì sao sách lại phải do tác giả đọc
  Một diễn viên lồng tiếng được đào tạo sẽ làm tốt hơn nhiều, và còn có thể điều chỉnh giọng cho phù hợp với bầu không khí
  Nếu là tự truyện thì được, nhưng những trường hợp như vậy thường tác giả đã tự đọc rồi
- Nếu bạn thấy diễn viên đọc sách nói quá chung chung, thì tôi có tin còn tệ hơn về AI đọc sách được huấn luyện bằng giọng tác giả
- Tôi gần như không bao giờ muốn tác giả đọc sách cho mình nghe. Tác giả là người viết giỏi, còn sách nói không chỉ là việc “đọc” những từ trên trang giấy
  Trừ khi đó là công cụ như Descript cho phép tác giả chỉnh lại cách phát âm sau khi thu lời dẫn, còn không thì tôi không muốn giọng của tác giả
  Tôi có hứng thú với việc huấn luyện mô hình bằng giọng của Allyson Johnson để đọc các sách Honor Harrington, và thu lại 1–2 cuốn spin-off đã dùng người đọc khác. Người đọc đó thật tệ
  Cũng có thể dùng nó để chỉnh lại việc cùng một cặp người đọc trong series Wheel of Time nhưng lại thay đổi cách phát âm của nhiều tên riêng và từ ngữ giữa các cuốn. Đặc biệt là “Moghedien”
  Ít nhất nó được phát âm theo ba kiểu: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- Sẽ hay nếu mỗi sách nói đều có tùy chọn người đọc. Có những người đọc tôi thích, và cũng có những người tôi hoàn toàn không thể nghe nổi
  Ngoài ra, nếu không dùng AI thì có hàng chục nghìn cuốn sách sẽ không bao giờ có bản audio
Liên quan: https://github.com/topics/voice-clone
- Tôi tò mò không biết trong số những thứ ở đây có cái nào thực sự hoạt động không
  Mỗi lần thử đến nay, kết quả nghe không giống giọng mục tiêu của tôi cũng không giống giọng gốc, mà chỉ như một giọng mới ngẫu nhiên
Có vẻ có vài notebook Python, nhưng sẽ tốt hơn nếu README có mã ví dụ

OpenVoice: công nghệ sao chép giọng nói tức thì

Các tính năng sao chép giọng nói mà OpenVoice cung cấp

Các tính năng cốt lõi của OpenVoice V1

Sao chép âm sắc chính xác

Điều khiển phong cách giọng nói linh hoạt

Sao chép giọng nói xuyên ngôn ngữ zero-shot

Những thay đổi trong OpenVoice V2

Sử dụng thực tế và phạm vi công bố

Cách sử dụng, giấy phép và các dự án nền tảng

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News