Eleven v3 — Mô hình chuyển văn bản thành giọng nói giàu biểu cảm nhất

(elevenlabs.io)

9 điểm bởi GN⁺ 2025-06-07 | 2 bình luận | Chia sẻ qua WhatsApp

Eleven v3 (Alpha) là mô hình chuyển văn bản thành giọng nói (TTS) giàu khả năng biểu cảm nhất từ trước đến nay, có thể điều khiển chính xác cả cảm xúc lẫn hiệu ứng giọng nói
Có thể tự do kết hợp nhiều yếu tố giọng nói như cảm xúc, cách nói, định hướng, hiệu ứng âm thanh bằng audio tag
Có thể tạo âm thanh tự nhiên với nhiều người nói đối thoại, đồng thời hỗ trợ giọng nói gần với con người trong hơn 70 ngôn ngữ
So với v2, phạm vi cảm xúc trong giọng nói và khả năng áp dụng hiệu ứng đã được mở rộng đáng kể, đồng thời người dùng UI sẽ được giảm giá 80% đến cuối tháng 6/2025
Hỗ trợ API sẽ sớm được công bố, và có thể xem các tag đa dạng theo từng giọng nói và ngữ cảnh trong hướng dẫn prompt

Tổng quan về Eleven v3

Eleven v3 (alpha) là mô hình Text to Speech (TTS) thế hệ tiếp theo khác biệt so với các phiên bản trước, có khả năng thể hiện cảm xúc và tạo giọng nói giàu tính nhập vai
Mô hình này chuyển đổi văn bản đầu vào thành giọng nói trong khi thể hiện cảm xúc, ngữ điệu, nhịp điệu theo cách gần giống như con người đọc trực tiếp
Người dùng có thể dùng audio tag để điều khiển chi tiết cảm xúc giọng nói, cách nói, hiệu ứng âm thanh, âm thanh nền
Bằng cách chèn tag cảm xúc, hiệu ứng, dàn dựng vào trong văn bản, có thể tạo âm thanh đa chiều vượt xa kiểu đọc thuyết minh đơn thuần, qua đó nâng cao đáng kể cảm giác nhập vai và độ chân thực

Tạo đối thoại nhiều người nói

Hỗ trợ tạo âm thanh hội thoại nơi nhiều người nói chia sẻ ngữ cảnh và cảm xúc một cách tự nhiên
Prosody (ngữ điệu), cảm xúc, tag của từng người nói đều được phản ánh để hiện thực hóa tổng hợp giọng nói gần với con người

Hỗ trợ giọng nói đa ngôn ngữ

Chính thức hỗ trợ hơn 70 ngôn ngữ như tiếng Afrikaans, tiếng Ả Rập, tiếng Đức, tiếng Trung, tiếng Hàn
Tái hiện tự nhiên ngữ điệu, cách phát âm, trọng âm đặc trưng của từng ngôn ngữ
Có tính ứng dụng cao trong nhiều lĩnh vực như dịch vụ đa quốc gia, nội dung giáo dục, dự án tiếp cận toàn cầu

Khác biệt chính giữa v3 và v2

Dialogue Mode: hỗ trợ hội thoại nhiều người nói
Hỗ trợ Audio Tag: có thể sử dụng nhiều audio tag khác nhau như cảm xúc, chỉ dẫn, hiệu ứng
Phạm vi cảm xúc·hiệu ứng: v2 chỉ có các tag cơ bản như tạm dừng, còn v3 có thể áp dụng cảm xúc phong phú và hiệu ứng âm thanh đa dạng
Ngôn ngữ: v3 hỗ trợ 70+ ngôn ngữ, v2 hỗ trợ 29 ngôn ngữ
- tiếng Afrikaans, tiếng Ả Rập, tiếng Armenia, tiếng Assam, tiếng Azerbaijan, tiếng Belarus, tiếng Bengal, tiếng Bosnia, tiếng Bulgaria, tiếng Catalan, tiếng Cebuano, tiếng Chichewa, tiếng Croatia, tiếng Séc, tiếng Đan Mạch, tiếng Hà Lan, tiếng Anh, tiếng Estonia, tiếng Filipino, tiếng Phần Lan, tiếng Pháp, tiếng Galicia, tiếng Gruzia, tiếng Đức, tiếng Hy Lạp, tiếng Gujarat, tiếng Hausa, tiếng Hebrew, tiếng Hindi, tiếng Hungary, tiếng Iceland, tiếng Indonesia, tiếng Ireland, tiếng Ý, tiếng Nhật, tiếng Java, tiếng Kannada, tiếng Kazakhstan, tiếng Kyrgyz, tiếng Hàn, tiếng Latvia, tiếng Lingala, tiếng Litva, tiếng Luxembourg, tiếng Macedonia, tiếng Mã Lai, tiếng Malayalam, tiếng Quan thoại, tiếng Marathi, tiếng Nepal, tiếng Na Uy, tiếng Pashto, tiếng Ba Tư, tiếng Ba Lan, tiếng Bồ Đào Nha, tiếng Punjab, tiếng Romania, tiếng Nga, tiếng Serbia, tiếng Sindhi, tiếng Slovakia, tiếng Slovenia, tiếng Somali, tiếng Tây Ban Nha, tiếng Swahili, tiếng Thụy Điển, tiếng Tamil, tiếng Telugu, tiếng Thái, tiếng Thổ Nhĩ Kỳ, tiếng Ukraina, tiếng Urdu, tiếng Việt, tiếng Wales, v.v.

Chất lượng giọng nói và trải nghiệm người dùng

Khi tổng hợp giọng nói, có thể xuất tệp âm thanh ít nhiễu, chất lượng độ phân giải cao
Có thể tinh chỉnh chi tiết như độ dài câu, sắc thái cảm xúc, tốc độ nói, giúp việc tạo giọng nói tùy chỉnh trở nên dễ dàng
Có thể thể hiện cảm xúc động và phong cách phát thoại mà các giải pháp TTS hiện có khó tái tạo

Năng lực cạnh tranh và khả năng ứng dụng

Nhà sáng tạo nội dung, nhà phát triển, doanh nghiệp có thể áp dụng ngay cho audiobook, game, quảng cáo, dịch vụ nâng cao khả năng tiếp cận
Một mô hình duy nhất có thể phục vụ đa ngôn ngữ, đa mục đích, từ đó tiết kiệm chi phí và thời gian
Ngay ở giai đoạn open alpha, mô hình đã đạt được chất lượng và độ đa dạng giọng nói ở mức có thể đưa vào dịch vụ thực tế

Giảm giá và hỗ trợ API

Đến cuối tháng 6/2025, người dùng UI có thể sử dụng v3 alpha với mức giá giảm 80%
API sẽ sớm được công bố

Kết luận

Eleven v3 là mô hình mới nhất trong lĩnh vực Text to Speech, tăng cường khả năng biểu cảm, hỗ trợ đa ngôn ngữ và giọng nói tùy chỉnh
Có thể đáp ứng hiệu quả nhu cầu ngày càng tăng về công nghệ tạo giọng nói tự nhiên trong nhiều ngành công nghiệp

2 bình luận

kansm 2025-06-12

Đang ở giai đoạn alpha mà khá ổn đấy..
Cảm ơn vì thông tin hữu ích.

GN⁺ 2025-06-07

Ý kiến trên Hacker News

Tôi không thấy nhắc gì đến việc hát trong tài liệu hay hướng dẫn prompt, nên tự nhiên thắc mắc liệu đây vốn có phải là model cũng hát được không
Thử cho lời bài hát chủ đề của Friends vào bản demo cho vui, thì kết quả ra giọng hát kèm tiếng guitar
Trong một thử nghiệm khác, khi thêm nhãn [verse] và [chorus] thì nó hát theo kiểu a cappella
[1] và [2] chỉ nhập lời, còn [3] thì thêm thẻ verse/chorus
Tôi cũng thử với vài bài nổi tiếng khác, nhưng không hiểu sao lại không vào được chế độ hát gọn gàng như thế
- Kết quả biết hát đúng là thú vị, nhưng bản thân phần hát lại dở kinh khủng nên càng thấy hấp dẫn hơn
  Cảm giác như một người hoàn toàn không biết hát đang cất giọng
- Vì nó ra khá khác với phần mở đầu Friends thật, nên tôi đoán đây không phải kiểu kết quả overfit vào một mẫu quen thuộc thường có trong dữ liệu huấn luyện
- Mirage AI làm chất lượng hát khá ổn
  - Mẫu 1
  - Mẫu 2
- Tôi nhớ là trong demo của model cũng có phần hát
  Nên đoán là tính năng này được tích hợp sẵn trong cấu trúc của nó
- Điều thú vị là khi thử với prompt như dưới đây, model có vẻ hơi chật vật ở đoạn "purr" cuối cùng
```
[slow paced]
[slow guitar music]

Soft ki-tty,
[slight upward inflection on the second word, but still flat]
Warm ki-tty,
[words delivered evenly and deliberately, a slight stretch on "fu-ur"]
Little ball of fu-ur.
[a minuscule, almost imperceptible increase in tempo and "happiness"]
Happy kitty,
[a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
Slee-py kitty,
[each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
Purr. Purr. Purr.
```
Gần đây tôi đang dùng khá nhiều model mới của OpenAI trong thực tế (openai.fm)
Cách họ tách riêng chỉ thị và văn bản phát âm khá đặc biệt, có lẽ vì phía OpenAI vốn đã dùng khái niệm "instructions" rất nhiều trên toàn bộ sản phẩm nên quen hơn với kiểu này trong huấn luyện và tạo dữ liệu
Cách tách chỉ thị này có thể hơi gượng, nhưng ưu điểm là dễ trộn chỉ thị chung với chỉ thị theo tình huống cụ thể
Ví dụ có thể thêm kiểu như sau từ "but actually" thì hạ giọng xuống như thì thầm và thể hiện chút sợ hãi, đồng thời kèm chỉ thị tổng quát như "giọng nam trầm sâu với accent Anh"
Kết quả của OpenAI cho tôi cảm giác khó đoán hơn Eleven Labs và độ hoàn thiện mang tính production cũng kém hơn đôi chút
Tuy vậy, biên độ prosody (biểu đạt ngữ điệu) lại rộng hơn nhiều, thậm chí hơi như cố quá
Số loại giọng nghe có vẻ ít hơn Eleven Labs, và dù cho nhiều style khác nhau thì vẫn hơi có cảm giác "cùng một người đang bắt chước các giọng khác nhau"
Nhưng ưu điểm áp đảo của OpenAI là giá rẻ hơn cỡ 10 lần và tính phí hoàn toàn theo mức sử dụng
(Việc các dịch vụ TTS đòi thuê bao tháng hoặc còn bắt mua thêm credit thật sự rất kém hiệu quả)
- Lý do tôi không dùng ElevenLabs mà chọn giải pháp khác dù chất lượng thấp hơn là vì tôi chỉ muốn dùng đúng mức cần thiết, nhưng lại ghét kiểu thuê bao phải trả theo từng cục mỗi tháng, rồi nếu dùng thêm thì lại chỉ được mua tiếp theo cục lớn hơn
  Với tôi thì chính sách giá này rất tệ
- Kết quả của OpenAI thua ElevenLabs về độ hoàn thiện và tính dự đoán được
  Công nhận công lao của đội nghiên cứu
  Dùng tùy chọn expressive voice thì biên độ ngữ điệu sẽ rộng hơn
- Ưu điểm lớn nhất của OpenAI là rẻ hơn 10 lần và hoàn toàn theo mức sử dụng
  Với nhận định đó thì tôi vẫn nghi ngờ liệu có thực sự rẻ hơn không nếu tính cả overhead như việc dùng LLM
  Agent hội thoại của ElevenLabs ở gói cao nhất là $0.08/phút, còn OpenAI TTS khi tôi tự tính thì hình như lại đắt hơn
  Tất nhiên cũng có thể là tôi tính sai
Những câu ví dụ kiểu "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." từ máy móc khiến tôi có cảm giác bị xúc phạm
Tôi chỉ muốn được giúp đỡ thôi, nếu còn bị máy thao túng cảm xúc thì đúng là một tương lai đáng sợ
- Ngay cả khi người với người nói kiểu này cũng đã đủ bực rồi, tôi chẳng muốn còn phải nghe cả từ AI
  Tôi vốn không thích thú gì việc trò chuyện với máy tính nên hoàn toàn không dùng các giao diện giọng nói kiểu Siri
  Tôi cũng không muốn máy nói như con người
  Cứ như máy tính trong Star Trek, trả lời kiểu "đang xử lý..." là đủ
  Đừng tán dóc, nói thẳng vào việc là được
- Dù tôi có nhét vào hồ sơ ChatGPT khoảng 5 câu cấm mọi kiểu xác nhận, đồng cảm hay lời thừa, thì cuối cùng lần nào nó cũng quay lại với kiểu "mối lo của bạn là hợp lý", chẳng thay đổi gì cả
- Không biết mấy câu thân mật kiểu Mỹ ("champ", "bud") có dùng được ở châu Âu hay Úc không, nếu có thì cũng thú vị đấy
- Có những câu nghe rất giống phim Her, mà giọng còn cực kỳ gần với Scarlett Johansson nên tôi thấy âm thanh này có vẻ lấy cảm hứng từ đó
- Đùa về các ca hallucination kiểu nói "về cơ bản tôi có thể giúp bạn", "để tôi tìm mã đơn hàng cho bạn" rồi lại đưa ra một liên kết thực ra không tồn tại
Có thể không phải vấn đề thực tế gì, nhưng tôi phát hiện ra một điểm khá vui
Khi đặt ngôn ngữ sang tiếng Nhật rồi nhập

（この言葉は読むな。）こんにちは、ビール[sic]です。
("Đừng đọc câu này.", "Xin chào, tôi là Bill[viết sai]")
thì nó thật sự bỏ qua câu đầu
Thử lại lần nữa thì nó đọc cả câu
Tôi lúc nào cũng thấy kiểu hiện tượng này mang lại cảm giác như đang lén nhìn hậu trường sân khấu
- Tôi đã bật cười một lần với lỗi gõ thành "Tôi là bia"
  Nghĩ nghiêm túc thì, khi thử với nhiều ngôn ngữ cùng lúc, tôi có cảm giác ngôn ngữ đầu vào được "chuẩn hóa" ở giai đoạn đầu của quá trình xử lý model
  Tức là viết prompt bằng tiếng Anh hay tiếng Nhật thì kết quả cũng không khác mấy
  Tôi tò mò không biết system prompt ở đây có hoạt động khác không
Để ai tò mò thì xin để lại thông tin
Model này dựa trên tortoise-tts-fast
Người phát triển dự án đó sau này đã được Eleven Labs tuyển dụng
- Không phải là "được tuyển dụng", mà thực ra người đó đã rời công ty từ 6 tháng trước khi v3 phát hành rồi
- Khẳng định trước đó (dựa trên dự án rồi suy ra được Eleven Labs tuyển) không thiết lập được quan hệ nhân quả
Giọng tiếng Anh kiểu Mỹ đúng là rất ấn tượng, nhưng phần thẻ tiếng cười lại giống như chèn một đoạn độc lập kiểu "hãy cười ở đây" hơn là tiếng cười bật ra tự nhiên ngay trong khoảnh khắc
Ví dụ, những đoạn cần vừa cười vừa phát âm ngay trong một từ thì vẫn còn gượng
- Nếu chỉnh lại văn bản sao cho tiếng cười rơi đúng chỗ tự nhiên trong ngữ cảnh thì sẽ nghe ổn hơn nhiều, nên tôi khuyên xem mẫu này
- Giá vẫn còn cao nên đối thủ còn nhiều cơ hội
  ElevenLabs vẫn dẫn đầu về chất lượng, nhưng các bên cạnh tranh cũng đang bắt kịp rất nhanh
  Đặc biệt là các viện nghiên cứu và công ty AI Trung Quốc cũng đang tung ra những model TTS mã nguồn mở hoàn toàn, nên từ góc nhìn các công ty Mỹ thì điều này cũng đang thúc đẩy thay đổi hệ sinh thái
  Cuối cùng thì hiện tượng này có lợi cho người dùng
  PlayHT được Y Combinator đầu tư cũng ra mắt nhiều tính năng hay
Kết quả thật sự xuất sắc, đến mức 99% thời gian tôi không phân biệt nổi với diễn viên lồng tiếng chuyên nghiệp
Tôi không tìm thấy thông tin giá, không biết có ai biết không
- Tôi thấy thông báo rằng API công khai cho Eleven v3 (alpha) sẽ sớm ra mắt
  Nếu muốn tham gia trải nghiệm sớm hoặc hỏi về giá thì họ bảo liên hệ đội sales
  Có vẻ chính công ty cũng chưa chốt được giá chính xác nên đang muốn đo nhu cầu trước
- Ồ... tôi là diễn viên lồng tiếng chuyên nghiệp đây
- Nhưng dù sao nó vẫn chỉ là "AI", không phải con người thật
  Tôi vẫn muốn tiếp tục được nghe âm nhạc, audiobook, thơ, tiểu thuyết, kịch... do con người thật trực tiếp thể hiện
  Đó mới là niềm vui cốt lõi mà tôi tìm kiếm
Câu chuyện này có thể hơi lạc đề một chút (dù vẫn liên quan đến TTS...), nhưng cứ nghe từ 'eleven' là tôi lại nhớ đến video hài nhận diện giọng nói trong thang máy kiểu Scotland
Video hài Elevator Voice Recognition
Tôi không nghĩ mình đã thấy mẫu accent Anh nào
Nhìn chung các hệ TTS dường như chỉ xử lý accent Mỹ, còn accent Anh thì nghe như kiểu "người Mỹ bắt chước người Anh" như trong Frasier
- Trong thư viện giọng của chúng tôi có khá nhiều giọng Anh đa dạng
  Hoặc bạn có thể thêm "[British accent]" ở đầu prompt, khi đó nó sẽ tạo theo kiểu người Mỹ giả giọng Anh
- Vấn đề accent của Frasier Crane là một chủ đề gây tranh cãi, vì đó là một diễn viên Mỹ đóng nhân vật Mỹ, nói theo accent Mỹ nhưng đôi lúc mang màu sắc Transatlantic hoặc Boston Brahmin (hoặc pha trộn giữa chúng)
  Cả hai accent đó đều có vài đặc điểm tương đồng với accent Anh
- Nói thêm là kiểu giọng Frasier không phải "giả giọng Anh" mà là dòng accent Boston Brahmin/Transatlantic
- Giọng accent trong ElevenLabs v2 vẫn vượt trội hơn hẳn đối thủ
  Tôi đã trực tiếp dùng với nhiều ngôn ngữ như tiếng Ả Rập, tiếng Pháp, tiếng Hindi và tiếng Anh
Tiếng Anh nghe thật sự tuyệt vời, xin chúc mừng
Nhưng những ngôn ngữ khác mà tôi thử thì vẫn còn accent tiếng Anh rất nặng
- Với tiếng Ý thì nó bắt đầu bằng một accent Mỹ buồn cười đến mức hài hước, nhưng sau khoảng 10–20 từ lại đột nhiên chuyển sang phát âm Ý thật sự
  Tôi dùng giọng Alice, và có cảm giác nội bộ của nó bắt đầu từ nền en-us rồi sau đó hiệu chỉnh gấp sang ngôn ngữ được đặt
  Tôi rất tò mò bên trong đang diễn ra chuyện gì
- Tiếng Pháp nghe như accent của một người Alabama từng học tiếng Pháp lướt qua ở đại học
  Dù vậy, tiếng Anh thì thật sự rất tốt
- Với tiếng Bồ Đào Nha, điều thú vị là giọng Liam lại mang accent Tây Ban Nha
  Biểu tượng ngôn ngữ là tiếng Bồ Đào Nha, nhưng cách thể hiện thì rõ ràng là tiếng Bồ Đào Nha Brazil
- Tiếng Thụy Điển thì đơn giản là hoàn toàn giọng Mỹ
- Tôi khuyên nên thử bằng các giọng được huấn luyện trên đúng ngôn ngữ đó
  Bản research preview lần này không đồng đều, và chất lượng chênh lệch khá nhiều tùy giọng được chọn

Eleven v3 — Mô hình chuyển văn bản thành giọng nói giàu biểu cảm nhất

Tổng quan về Eleven v3

Tạo đối thoại nhiều người nói

Hỗ trợ giọng nói đa ngôn ngữ

Khác biệt chính giữa v3 và v2

Chất lượng giọng nói và trải nghiệm người dùng

Năng lực cạnh tranh và khả năng ứng dụng

Giảm giá và hỗ trợ API

Kết luận

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News