OpenVoice: công nghệ sao chép giọng nói tức thì
(github.com/myshell-ai)- OpenVoice là dự án sao chép giọng nói tức thì, sao chép âm sắc tham chiếu để tạo giọng nói bằng nhiều ngôn ngữ và giọng địa phương; dự án đã công bố các tính năng của V1 và V2
- V1 hỗ trợ sao chép âm sắc chính xác, điều khiển phong cách giọng nói như cảm xúc, ngữ điệu, nhịp điệu, khoảng dừng và biến đổi ngữ điệu, cũng như sao chép giọng nói xuyên ngôn ngữ zero-shot
- OpenVoice V2 được công bố vào tháng 4/2024; ngoài việc bao gồm các tính năng của V1, phiên bản này cung cấp chất lượng âm thanh tốt hơn nhờ một chiến lược huấn luyện khác
- V2 hỗ trợ đa ngôn ngữ native gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Trung, tiếng Nhật và tiếng Hàn; cả V1 và V2 đều có thể sử dụng miễn phí cho mục đích thương mại và nghiên cứu theo MIT License
- OpenVoice đã được dùng cho tính năng sao chép giọng nói tức thì của myshell.ai từ tháng 5/2023, và đến tháng 11/2023 đã được người dùng trên toàn thế giới sử dụng hàng chục triệu lần
Các tính năng sao chép giọng nói mà OpenVoice cung cấp
- OpenVoice là một dự án dành cho sao chép giọng nói tức thì
- Bài báo liên quan được công bố dưới dạng bài báo arXiv
Các tính năng cốt lõi của OpenVoice V1
-
Sao chép âm sắc chính xác
- Có thể sao chép chính xác âm sắc tham chiếu
- Có thể tạo giọng nói bằng nhiều ngôn ngữ và giọng địa phương
-
Điều khiển phong cách giọng nói linh hoạt
- Có thể điều khiển chi tiết cảm xúc và ngữ điệu
- Các tham số phong cách như nhịp điệu, khoảng dừng và biến đổi ngữ điệu cũng thuộc phạm vi điều khiển
-
Sao chép giọng nói xuyên ngôn ngữ zero-shot
- Ngôn ngữ của giọng nói được tạo và ngôn ngữ của giọng nói tham chiếu không nhất thiết phải nằm trong bộ dữ liệu huấn luyện đa ngôn ngữ, đa người nói quy mô lớn
Những thay đổi trong OpenVoice V2
- OpenVoice V2 được công bố vào tháng 4/2024
- V2 bao gồm tất cả tính năng của V1
- Áp dụng một chiến lược huấn luyện khác để cung cấp chất lượng âm thanh tốt hơn
- Hỗ trợ native tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Trung, tiếng Nhật và tiếng Hàn
- Từ tháng 4/2024, cả V2 và V1 đều được phát hành theo MIT License, cho phép sử dụng thương mại miễn phí
Sử dụng thực tế và phạm vi công bố
- OpenVoice đã vận hành tính năng sao chép giọng nói tức thì của myshell.ai từ tháng 5/2023
- Đến tháng 11/2023, mô hình sao chép giọng nói đã được người dùng trên toàn thế giới sử dụng hàng chục triệu lần
- README có kèm bản demo Video
1 bình luận
Ý kiến trên Hacker News
Chuyện kiểu này đã xảy ra ngay trong vài ngày gần đây: cảnh sát cho biết trưởng bộ phận thể thao đã dùng AI tạo một đoạn âm thanh giả nhằm vu cho hiệu trưởng có phát ngôn phân biệt chủng tộc
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
Dĩ nhiên phần lớn vẫn sẽ không fact-check
Chúng ta đã bước vào thời kỳ mà luật pháp và thực thi phải chạy theo cực nhanh
Giờ đây đã có thể tạo ra bằng chứng lịch sử giả, rò rỉ giả, tuyên bố ủng hộ giả, cho tới quảng cáo giả
Người ta vốn đã lười xác minh cả những bài đăng chữ đơn thuần trên Facetok, nên về sau có lẽ còn tệ hơn nhiều
Tôi vẫn nói với bạn bè rằng trong 5–10 năm nữa, thứ duy nhất có thể tin gần như 100% sẽ là những gì đang diễn ra ngay trước mắt mình
Bạn vẫn có thể chọn tin vào các cơ quan báo chí uy tín đã kiểm chứng, nhưng vì phân cực, một bộ phận lớn của thế giới sẽ cho rằng họ đã bị mua chuộc và gạt mọi thứ thành giả mạo
Cứ nhìn Sora hay các mô hình giọng nói mới là thấy. Mới vài ngày trước, một huấn luyện viên thể thao trung học đã bị bắt vì sao chép giọng hiệu trưởng để bắt ông ấy nói những điều khủng khiếp, và bị lộ vì dùng chính email của mình
Ghép điều đó với việc mô hình Phi-mini mới của Microsoft, với 3,8 tỷ tham số, đang tiến gần hiệu năng GPT-3.5 thì còn đáng sợ hơn. GPT-3.5 có 175 tỷ tham số, và việc tối ưu hóa công nghệ này mới chỉ diễn ra khoảng 5 năm
Tôi muốn xuống khỏi chuyến tàu lượn điên rồ của Mr Bones
Không thể dự đoán rủi ro mà AI tạo sinh sẽ phá hủy niềm tin sẽ diễn ra ra sao, nhưng tôi vẫn lạc quan rằng cuối cùng sự sáng tạo của con người sẽ thắng
Chỉ cần luyện tập thì bắt chước cách nói của người khác cũng không hề khó, và đó là điều cả diễn viên nghiệp dư lẫn chuyên nghiệp vẫn thường làm
Điều thay đổi chỉ là việc đó nay trở nên dễ hơn, và điều đó lẽ ra còn giúp mọi người hiểu rằng loại “bằng chứng” như vậy vốn khó đáng tin đến mức nào
Android và iOS nên hỗ trợ sẵn bộ biến đổi giọng nói thời gian thực như tính năng mặc định, kèm nút tắt nhanh trong trình quay số và tùy chọn tắt cho các liên hệ quen biết
Chắc chắn sẽ có những ứng dụng thực sự gây xáo trộn, nhưng khác biệt giữa những gì công nghệ này mới cho phép làm được và những gì vốn đã làm được từ trước là nhỏ hơn nhiều so với cách mọi người thường nói
Đây không hẳn là sao chép, mà gần hơn với việc sao chép âm sắc giọng nói. Ngay cả tài liệu cũng ghi như vậy, nhưng người ta vẫn gọi là voice cloning
Tôi đã thử trực tiếp, và thay vì chất giọng Lancashire nhẹ nhàng thường ngày của tôi thì nó nghe như giọng Mỹ, hoàn toàn không giống tôi
VoiceShopAi có thể đổi giọng trẻ thành già, nam thành nữ, hoặc sang giọng của bất kỳ quốc gia nào
Tôi tìm thấy nó trong https://github.com/metame-ai/awesome-audio-plaza, nơi theo dõi các mục mới trong lĩnh vực âm thanh
Ca sử dụng chính đáng của công nghệ này là gì? Tôi có thể nghĩ ra cả trăm cách để lừa người khác, nhưng lại khó nghĩ ra tình huống nào mà ai đó thật sự muốn sao chép hay tái tạo giọng của chính mình
Nhà phát triển game indie cũng có thể tạo ra các NPC sống động với giọng riêng, nơi hội thoại được vận hành bởi mô hình ngôn ngữ lớn
Trong quá trình làm phim, người ta cũng có thể điều chỉnh một số câu thoại với sự đồng ý của diễn viên
Nó cũng cần thiết cho những người đang dần mất giọng vì vấn đề sức khỏe nhưng vẫn muốn tiếp tục giao tiếp
Công nghệ này rõ ràng có các ca sử dụng chính đáng. Cá nhân tôi nghĩ cách dùng sai trái lấn át cách dùng chính đáng, nhưng nói rằng nó không có ứng dụng hợp pháp nào thì không công bằng
Nên hình sự hóa hành vi lạm dụng và quản lý nghiêm ngặt, chứ không phải cấm hoàn toàn. Với phần mềm và các mô hình nhỏ, lệnh cấm cũng khá khó thực thi
Sách nói cũng có thể được đọc bằng giọng riêng cho từng nhân vật thay vì chỉ một người đọc cố diễn
Nó cũng hữu ích khi bạn bị cảm nhưng vẫn muốn phát biểu mà không ho khan
Với âm thanh, trong truyền tải băng thông thấp có thể chỉ gửi văn bản rồi phát lại bằng mô hình giọng nói cục bộ
Nó cũng có thể được dùng để trò chuyện với người thân yêu đã qua đời
Hoặc đơn giản là dùng cho mục đích gây cười, hài hước
Nếu giả định bản dịch hoàn hảo sẽ không bị dùng ác ý, thì đây là một ứng dụng luôn hữu ích và hoàn toàn không xấu xa
Nếu từ các bản ghi âm giọng cũ mà có thể khôi phục lại ít nhất phần nào giọng “của chính anh ấy”, thì anh ấy chắc sẽ rất thích
Đáng tiếc là tôi vẫn chưa thấy công cụ nào tạo ra mô hình giọng nói có thể cắm vào Android TTS mà anh ấy đang dùng hoặc vào Windows
Nếu muốn tiếp tục theo dõi lĩnh vực này thì nên xem ở đâu? Tôi rất quan tâm vì muốn sáng tạo bằng những công cụ như thế này, nhưng giọng của tôi không thực sự phù hợp cho mục đích đó
Để làm cho tự nhiên hơn thì có vẻ chuyển đổi giọng nói sang giọng nói sẽ tốt hơn chuyển văn bản thành giọng nói. Tôi đã thử qua một chút các công cụ như RVC, nhưng có cảm giác là đang bỏ lỡ rất nhiều quy trình làm việc tuyệt vời giữa biển nhiễu AI
Tôi đặc biệt tò mò về những quy trình làm việc thú vị và những người làm ra các thứ vui ho với AI
Ở đây có khá nhiều thuyết tận thế và kịch tính hóa quá mức. So với các phương pháp AI nhân bản giọng nói đã có thể dùng công khai từ khoảng 1 năm trước, vì sao lần công bố này lại tệ hơn đến vậy?
Tôi thực sự mong chờ sách nói được đọc bằng giọng của tác giả nhờ nhân bản giọng nói
Dĩ nhiên sẽ không hay bằng việc chính tác giả đọc, nhưng trong giọng của tác giả có điều gì đó mà diễn viên lồng tiếng không thể mang lại. Các diễn viên lồng tiếng thường phát âm quá chung chung và cường điệu, nên cá nhân tôi cảm thấy ít kết nối hơn
AI sẽ không làm được điều đó. Dù có tốt đến đâu thì cũng không thể đọc được suy nghĩ của tác giả. Kết quả sẽ còn chung chung hơn cả người đọc là con người
Một diễn viên lồng tiếng được đào tạo sẽ làm tốt hơn nhiều, và còn có thể điều chỉnh giọng cho phù hợp với bầu không khí
Nếu là tự truyện thì được, nhưng những trường hợp như vậy thường tác giả đã tự đọc rồi
Trừ khi đó là công cụ như Descript cho phép tác giả chỉnh lại cách phát âm sau khi thu lời dẫn, còn không thì tôi không muốn giọng của tác giả
Tôi có hứng thú với việc huấn luyện mô hình bằng giọng của Allyson Johnson để đọc các sách Honor Harrington, và thu lại 1–2 cuốn spin-off đã dùng người đọc khác. Người đọc đó thật tệ
Cũng có thể dùng nó để chỉnh lại việc cùng một cặp người đọc trong series Wheel of Time nhưng lại thay đổi cách phát âm của nhiều tên riêng và từ ngữ giữa các cuốn. Đặc biệt là “Moghedien”
Ít nhất nó được phát âm theo ba kiểu: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
Ngoài ra, nếu không dùng AI thì có hàng chục nghìn cuốn sách sẽ không bao giờ có bản audio
Liên quan: https://github.com/topics/voice-clone
Mỗi lần thử đến nay, kết quả nghe không giống giọng mục tiêu của tôi cũng không giống giọng gốc, mà chỉ như một giọng mới ngẫu nhiên
Có vẻ có vài notebook Python, nhưng sẽ tốt hơn nếu README có mã ví dụ