Ra mắt Play 3.0 Mini - mô hình Text-To-Speech đa ngôn ngữ nhẹ, hiệu quả chi phí

(play.ht)

23 điểm bởi GN⁺ 2024-11-03 | 4 bình luận | Chia sẻ qua WhatsApp

Mô hình giọng nói có năng lực và tính hội thoại cao nhất, có thể nói bằng bất kỳ giọng nói hay chất giọng nào với tốc độ và độ chính xác hàng đầu ngành trên hơn 30 ngôn ngữ
- Đồng thời ra mắt hơn 50 giọng nói AI hội thoại mới trên nhiều ngôn ngữ
Khi xây dựng ứng dụng thời gian thực bằng TTS, độ trễ, độ tin cậy, chất lượng âm thanh và độ tự nhiên của giọng nói là cực kỳ quan trọng

Play 3.0 mini là mô hình giọng nói hội thoại nhanh nhất từ trước đến nay

3.0 mini đạt độ trễ trung bình 189 mili giây cho TTFB, trở thành mô hình AI Text to Speech nhanh nhất
Hỗ trợ streaming đầu vào văn bản từ LLM và streaming đầu ra âm thanh, có thể sử dụng qua HTTP REST API, WebSocket API hoặc SDK
3.0 mini cũng hiệu quả hơn Play 2.0, với tốc độ suy luận nhanh hơn 28%

Play 3.0 mini hỗ trợ mọi giọng nói trên hơn 30 ngôn ngữ

Play 3.0 mini hiện hỗ trợ mặc định hơn 30 ngôn ngữ với nhiều lựa chọn giọng nam và nữ
Các giọng tiếng Anh, tiếng Nhật, tiếng Hindi, tiếng Ả Rập, tiếng Tây Ban Nha, tiếng Ý, tiếng Đức, tiếng Pháp và tiếng Bồ Đào Nha hiện có thể dùng cho các trường hợp sử dụng production và khả dụng trong API lẫn playground
Ngoài ra còn có thể thử nghiệm tiếng Afrikaans, tiếng Bulgaria, tiếng Croatia, tiếng Séc, tiếng Hebrew, tiếng Hungary, tiếng Indonesia, tiếng Mã Lai, tiếng Quan thoại, tiếng Ba Lan, tiếng Serbia, tiếng Thụy Điển, tiếng Tagalog, tiếng Thái, tiếng Thổ Nhĩ Kỳ, tiếng Ukraina, tiếng Urdu và tiếng Xhosa

Play 3.0 mini chính xác hơn

Mục tiêu của Play 3.0 mini là tạo ra mô hình TTS tốt nhất cho AI hội thoại
Để đạt được điều đó, mô hình phải vượt qua các mô hình cạnh tranh về độ trễ và độ chính xác, đồng thời tạo giọng nói với sắc thái hội thoại nhất
LLM có thể bị hallucination, và voice LLM cũng không ngoại lệ. Hallucination trong voice LLM có thể xuất hiện dưới dạng thêm hoặc thiếu từ hay số trong âm thanh đầu ra, vốn không có trong văn bản đầu vào

Play 3.0 mini đọc các tổ hợp chữ cái và số tự nhiên hơn

Chúng tôi đã huấn luyện mô hình để đọc số và chữ cái đầu như con người
Mô hình điều chỉnh tốc độ và làm chậm mọi ký tự chữ cái và số
Ví dụ, số điện thoại sẽ được đọc với tốc độ tự nhiên hơn, và tương tự với mọi chữ cái đầu và từ viết tắt
Điều này giúp trải nghiệm hội thoại tổng thể trở nên tự nhiên hơn

Play 3.0 mini đạt độ tương đồng giọng nói tốt nhất cho voice cloning

Khi sao chép giọng nói, chỉ nghe gần giống thường là chưa đủ
Voice cloning của Play 3.0 đạt hiệu năng state-of-the-art khi sao chép giọng nói, tái hiện chính xác chất giọng, tông giọng và ngữ điệu của giọng được sao chép
Trong các bài benchmark dùng mô hình embedding mã nguồn mở phổ biến, mô hình vượt xa các đối thủ về mức độ tương đồng với giọng gốc
Hãy tự thử bằng cách sao chép giọng nói của bạn tại play.ai và trò chuyện với chính mình

Hỗ trợ WebSocket API

API của 3.0 mini hiện hỗ trợ WebSocket, giúp giảm đáng kể overhead của việc mở và đóng kết nối HTTP, đồng thời dễ dàng kích hoạt streaming đầu vào văn bản từ LLM hoặc các nguồn khác hơn

Play 3.0 mini là một mô hình hiệu quả chi phí

Chúng tôi vui mừng công bố giảm giá cho các gói startup và growth có khối lượng cao hơn, đồng thời giới thiệu gói Pro mới giá 49 USD/tháng cho các doanh nghiệp có nhu cầu khiêm tốn hơn
Hãy xem bảng giá mới tại đây
Chúng tôi rất mong chờ xem bạn sẽ xây dựng gì cùng chúng tôi! Nếu bạn có nhu cầu tùy chỉnh ở quy mô lớn, vui lòng liên hệ đội ngũ sales

Ý kiến của GN+

Nỗ lực của Play.ht trong việc phát triển mô hình giọng nói đáng tin cậy nhất cho AI hội thoại rất ấn tượng. Vượt trội hơn đối thủ về độ trễ và độ chính xác, đồng thời tạo ra giọng nói hội thoại tự nhiên nhất, mô hình này có vẻ sẽ dẫn đầu ngành
Việc hỗ trợ hơn 30 ngôn ngữ và nhiều tùy chọn giọng nói là một bước tiến quan trọng để tiếp cận nhiều người dùng và trường hợp sử dụng hơn. Điều này sẽ giúp thúc đẩy việc áp dụng rộng rãi voice AI
Tuy nhiên, cần lưu ý các cân nhắc về đạo đức khi áp dụng công nghệ này. Ví dụ, sao chép giọng nói của một cá nhân mà không có sự đồng ý có thể gây ra vấn đề về quyền riêng tư. Ngoài ra, công nghệ này cũng có thể bị lạm dụng để phát tán thông tin sai lệch
Các dự án voice AI đáng chú ý khác có tính năng tương tự gồm Tacotron của Google và WaveNet của DeepMind. Những mô hình này cũng tập trung vào hỗ trợ đa ngôn ngữ và tạo giọng nói tự nhiên
Kết luận, Play 3.0 mini đặt ra một tiêu chuẩn mới cho công nghệ giọng nói trong AI hội thoại. Các nhà phát triển sẽ có thể tận dụng TTS nhanh, chính xác và tự nhiên cho nhiều ứng dụng thời gian thực khác nhau. Tuy nhiên, cần có các biện pháp bảo vệ mạnh mẽ và hướng dẫn đạo đức để ngăn chặn việc lạm dụng tiềm tàng của công nghệ này

4 bình luận

dane1 2024-11-04

Nhưng khi vào Playground thì lại thấy có cả tiếng Hàn nữa nhỉ?

dane1 2024-11-04

Ơ, hỗ trợ nhiều ngôn ngữ thế này mà lại không có tiếng Hàn sao T_T

hmmhmmhm 2024-11-03

Tiếc là có vẻ vẫn chưa hỗ trợ tiếng Hàn T_T

GN⁺ 2024-11-03

Ý kiến trên Hacker News

Một mẫu TTS mã nguồn mở ra mắt gần đây cung cấp khả năng sao chép giọng nói rất ấn tượng. Có thể chạy trên GPU NVIDIA với 10 GB VRAM.
Bài thử trực tiếp trên Firefox không hoạt động, nhưng khi chuyển sang Chrome thì chạy rất nhanh. Chỉ mất 30 giây để sao chép giọng nói của chính mình và bắt đầu hội thoại. Mức độ tinh vi đủ để đánh lừa phần lớn mọi người.
Mẫu này tốn kém hơn API TTS của Cartesia và OpenAI. Nhìn chung, API TTS thường được vận hành với biên lợi nhuận cao hơn LLM.
Với các ngôn ngữ ngoài tiếng Anh, tính năng phiên âm không hữu ích. Nếu phiên âm chính xác thì việc dịch và phản hồi bằng giọng nói sẽ rất nhanh, nhưng nếu phiên âm kém thì gần như vô dụng.
Trong mùa hè, đã viết các API client cho Go và Rust. Khi đó ở chỗ làm có dùng Play, nhưng chỉ có SDK cho Python và Node.
Việc trò chuyện độ trễ thấp với một giọng nói giống mình có thể gây cảm giác hơi bất an. Tuy nhiên, đây là một trải nghiệm rất gợi mở suy nghĩ.
Giọng nói được sao chép nghe rất giống, nhưng trong một bài kiểm tra mù, cả 5 người đều không nhận ra đó là giọng của tôi. Điều này khiến tôi tự hỏi liệu có sự thiên lệch nào khi nghe chính giọng mình hay không.
Mẫu của OpenAI hoạt động không tốt khi phát âm số. Tôi rất sốc khi vào năm 2024 vẫn có mẫu TTS không thể phát âm đúng các con số. Tôi tin rằng các mẫu TTS mới ít nhất nên được kiểm chứng với các số lên tới 100,000.