- Mô hình giọng nói có năng lực và tính hội thoại cao nhất, có thể nói bằng bất kỳ giọng nói hay chất giọng nào với tốc độ và độ chính xác hàng đầu ngành trên hơn 30 ngôn ngữ
- Đồng thời ra mắt hơn 50 giọng nói AI hội thoại mới trên nhiều ngôn ngữ
- Khi xây dựng ứng dụng thời gian thực bằng TTS, độ trễ, độ tin cậy, chất lượng âm thanh và độ tự nhiên của giọng nói là cực kỳ quan trọng
Play 3.0 mini là mô hình giọng nói hội thoại nhanh nhất từ trước đến nay
- 3.0 mini đạt độ trễ trung bình 189 mili giây cho TTFB, trở thành mô hình AI Text to Speech nhanh nhất
- Hỗ trợ streaming đầu vào văn bản từ LLM và streaming đầu ra âm thanh, có thể sử dụng qua HTTP REST API, WebSocket API hoặc SDK
- 3.0 mini cũng hiệu quả hơn Play 2.0, với tốc độ suy luận nhanh hơn 28%
Play 3.0 mini hỗ trợ mọi giọng nói trên hơn 30 ngôn ngữ
- Play 3.0 mini hiện hỗ trợ mặc định hơn 30 ngôn ngữ với nhiều lựa chọn giọng nam và nữ
- Các giọng tiếng Anh, tiếng Nhật, tiếng Hindi, tiếng Ả Rập, tiếng Tây Ban Nha, tiếng Ý, tiếng Đức, tiếng Pháp và tiếng Bồ Đào Nha hiện có thể dùng cho các trường hợp sử dụng production và khả dụng trong API lẫn playground
- Ngoài ra còn có thể thử nghiệm tiếng Afrikaans, tiếng Bulgaria, tiếng Croatia, tiếng Séc, tiếng Hebrew, tiếng Hungary, tiếng Indonesia, tiếng Mã Lai, tiếng Quan thoại, tiếng Ba Lan, tiếng Serbia, tiếng Thụy Điển, tiếng Tagalog, tiếng Thái, tiếng Thổ Nhĩ Kỳ, tiếng Ukraina, tiếng Urdu và tiếng Xhosa
Play 3.0 mini chính xác hơn
- Mục tiêu của Play 3.0 mini là tạo ra mô hình TTS tốt nhất cho AI hội thoại
- Để đạt được điều đó, mô hình phải vượt qua các mô hình cạnh tranh về độ trễ và độ chính xác, đồng thời tạo giọng nói với sắc thái hội thoại nhất
- LLM có thể bị hallucination, và voice LLM cũng không ngoại lệ. Hallucination trong voice LLM có thể xuất hiện dưới dạng thêm hoặc thiếu từ hay số trong âm thanh đầu ra, vốn không có trong văn bản đầu vào
Play 3.0 mini đọc các tổ hợp chữ cái và số tự nhiên hơn
- Chúng tôi đã huấn luyện mô hình để đọc số và chữ cái đầu như con người
- Mô hình điều chỉnh tốc độ và làm chậm mọi ký tự chữ cái và số
- Ví dụ, số điện thoại sẽ được đọc với tốc độ tự nhiên hơn, và tương tự với mọi chữ cái đầu và từ viết tắt
- Điều này giúp trải nghiệm hội thoại tổng thể trở nên tự nhiên hơn
Play 3.0 mini đạt độ tương đồng giọng nói tốt nhất cho voice cloning
- Khi sao chép giọng nói, chỉ nghe gần giống thường là chưa đủ
- Voice cloning của Play 3.0 đạt hiệu năng state-of-the-art khi sao chép giọng nói, tái hiện chính xác chất giọng, tông giọng và ngữ điệu của giọng được sao chép
- Trong các bài benchmark dùng mô hình embedding mã nguồn mở phổ biến, mô hình vượt xa các đối thủ về mức độ tương đồng với giọng gốc
- Hãy tự thử bằng cách sao chép giọng nói của bạn tại play.ai và trò chuyện với chính mình
Hỗ trợ WebSocket API
- API của 3.0 mini hiện hỗ trợ WebSocket, giúp giảm đáng kể overhead của việc mở và đóng kết nối HTTP, đồng thời dễ dàng kích hoạt streaming đầu vào văn bản từ LLM hoặc các nguồn khác hơn
Play 3.0 mini là một mô hình hiệu quả chi phí
- Chúng tôi vui mừng công bố giảm giá cho các gói startup và growth có khối lượng cao hơn, đồng thời giới thiệu gói Pro mới giá 49 USD/tháng cho các doanh nghiệp có nhu cầu khiêm tốn hơn
- Hãy xem bảng giá mới tại đây
- Chúng tôi rất mong chờ xem bạn sẽ xây dựng gì cùng chúng tôi! Nếu bạn có nhu cầu tùy chỉnh ở quy mô lớn, vui lòng liên hệ đội ngũ sales
Ý kiến của GN+
- Nỗ lực của Play.ht trong việc phát triển mô hình giọng nói đáng tin cậy nhất cho AI hội thoại rất ấn tượng. Vượt trội hơn đối thủ về độ trễ và độ chính xác, đồng thời tạo ra giọng nói hội thoại tự nhiên nhất, mô hình này có vẻ sẽ dẫn đầu ngành
- Việc hỗ trợ hơn 30 ngôn ngữ và nhiều tùy chọn giọng nói là một bước tiến quan trọng để tiếp cận nhiều người dùng và trường hợp sử dụng hơn. Điều này sẽ giúp thúc đẩy việc áp dụng rộng rãi voice AI
- Tuy nhiên, cần lưu ý các cân nhắc về đạo đức khi áp dụng công nghệ này. Ví dụ, sao chép giọng nói của một cá nhân mà không có sự đồng ý có thể gây ra vấn đề về quyền riêng tư. Ngoài ra, công nghệ này cũng có thể bị lạm dụng để phát tán thông tin sai lệch
- Các dự án voice AI đáng chú ý khác có tính năng tương tự gồm Tacotron của Google và WaveNet của DeepMind. Những mô hình này cũng tập trung vào hỗ trợ đa ngôn ngữ và tạo giọng nói tự nhiên
- Kết luận, Play 3.0 mini đặt ra một tiêu chuẩn mới cho công nghệ giọng nói trong AI hội thoại. Các nhà phát triển sẽ có thể tận dụng TTS nhanh, chính xác và tự nhiên cho nhiều ứng dụng thời gian thực khác nhau. Tuy nhiên, cần có các biện pháp bảo vệ mạnh mẽ và hướng dẫn đạo đức để ngăn chặn việc lạm dụng tiềm tàng của công nghệ này
4 bình luận
Nhưng khi vào Playground thì lại thấy có cả tiếng Hàn nữa nhỉ?
Ơ, hỗ trợ nhiều ngôn ngữ thế này mà lại không có tiếng Hàn sao T_T
Tiếc là có vẻ vẫn chưa hỗ trợ tiếng Hàn T_T
Ý kiến trên Hacker News