Gemini 3.1 Flash TTS - Mô hình giọng nói AI thế hệ mới điều khiển phong cách nói bằng ngôn ngữ tự nhiên

(blog.google)

3 điểm bởi GN⁺ 2026-04-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Google ra mắt mô hình chuyển văn bản thành giọng nói mới với độ tự nhiên và khả năng biểu đạt được cải thiện so với trước đây, hỗ trợ xây dựng ứng dụng giọng nói AI cho nhà phát triển, doanh nghiệp và người dùng phổ thông
Tính năng audio tags mới cho phép chèn trực tiếp lệnh ngôn ngữ tự nhiên vào văn bản để điều khiển chi tiết phong cách giọng nói, tốc độ và cách truyền đạt
Trên bảng xếp hạng Artificial Analysis TTS, mô hình đạt điểm Elo 1.211 và được đánh giá là sự kết hợp lý tưởng giữa tạo giọng nói chất lượng cao và chi phí thấp
Hỗ trợ hơn 70 ngôn ngữ và tích hợp sẵn khả năng hội thoại đa người nói bản địa
Tất cả âm thanh được tạo ra đều được áp dụng watermark SynthID, cho phép phát hiện đáng tin cậy nội dung do AI tạo ra và ngăn chặn thông tin sai lệch

Ra mắt và kênh cung cấp

Gemini 3.1 Flash TTS là mô hình chuyển văn bản thành giọng nói mới nhất, cung cấp khả năng kiểm soát, độ biểu đạt và chất lượng được nâng cao
Hiện được cung cấp dưới dạng bản preview qua các kênh sau:
- Dành cho nhà phát triển: Gemini API và Google AI Studio
- Dành cho doanh nghiệp: Vertex AI
- Dành cho người dùng Workspace: Google Vids

Chất lượng giọng nói tổng thể đã được cải thiện, trở thành mô hình tự nhiên và giàu biểu đạt nhất từ trước đến nay
Trên bảng xếp hạng Artificial Analysis TTS, mô hình đạt Elo 1.211 điểm dựa trên hàng nghìn đánh giá mù về mức độ ưa thích của con người
Artificial Analysis xếp Gemini 3.1 Flash TTS vào “most attractive quadrant” nhờ sự kết hợp lý tưởng giữa tạo giọng nói chất lượng cao và chi phí thấp
Khác biệt nhờ hội thoại đa người nói bản địa, hỗ trợ hơn 70 ngôn ngữ và khả năng kiểm soát sáng tạo chi tiết dựa trên ngôn ngữ tự nhiên

Việc bổ sung tính năng audio tags mới cho phép điều khiển trực quan phong cách giọng nói, tốc độ và cách truyền đạt
Có thể chèn trực tiếp lệnh ngôn ngữ tự nhiên vào đầu vào văn bản để tinh chỉnh chi tiết đầu ra giọng nói AI
Doanh nghiệp có thể tận dụng audio tags trong Vertex AI để xây dựng các ứng dụng doanh nghiệp thế hệ tiếp theo
Trong Google AI Studio, các điều khiển có thể cấu hình đưa nhà phát triển vào “ghế đạo diễn (director's chair)”:
- Scene direction: xác định bối cảnh và thiết lập chỉ dẫn lời thoại cụ thể để cung cấp ngữ cảnh worldbuilding, giúp nhân vật phản hồi tự nhiên qua nhiều lượt hội thoại
- Speaker-level specificity: gán vai cho nhân vật bằng Audio Profile riêng biệt, điều chỉnh tốc độ, tông và ngữ điệu bằng Director's Notes, đồng thời cho phép chuyển đổi biểu đạt ngay giữa câu thông qua thẻ nội tuyến
- Seamless export: có thể xuất các tham số đã hoàn thiện thành mã Gemini API để duy trì giọng nói nhất quán trên nhiều dự án và nền tảng
Quảng cáo
Nhờ cấu hình này, nhà phát triển có thể tạo ra các nhân vật đáng nhớ và trải nghiệm âm thanh sống động

Cung cấp giọng nói độ trung thực cao và khả năng kiểm soát chính xác trên hơn 70 ngôn ngữ
Có thể xây dựng trải nghiệm giọng nói bản địa hóa thông qua khả năng kiểm soát nâng cao về phong cách, tốc độ và ngữ điệu cho các thị trường trọng điểm
Các nhà phát triển và doanh nghiệp thử nghiệm ban đầu đánh giá cao khả năng kiểm soát và độ biểu đạt ấn tượng của 3.1 Flash TTS
- Phản hồi cho biết audio tags mang lại mức độ chính xác sáng tạo mới, biến văn bản đơn thuần thành phần thể hiện giọng hát/giọng nói có độ trung thực cao

Tất cả âm thanh do Gemini 3.1 Flash TTS tạo ra đều được áp dụng watermark SynthID
Watermark không thể cảm nhận được được nhúng trực tiếp vào đầu ra âm thanh, cho phép phát hiện đáng tin cậy nội dung do AI tạo ra
Hoạt động như một biện pháp an toàn để ngăn chặn thông tin sai lệch, đồng thời cung cấp thông tin chi tiết về an toàn và trách nhiệm thông qua model card