- Mô hình chuyển giọng nói thành văn bản thế hệ mới sở hữu khả năng nhận dạng giọng nói thời gian thực với độ trễ cực thấp và tách người nói có độ chính xác cao
- Gồm hai mô hình: Voxtral Mini Transcribe V2 dành cho xử lý batch, và Voxtral Realtime với kiến trúc dành cho ứng dụng thời gian thực
- Mô hình Realtime xử lý giọng nói theo phương thức streaming với độ trễ dưới 200ms, được phát hành dưới dạng open weight Apache 2.0
- Mini Transcribe V2 hỗ trợ 13 ngôn ngữ bao gồm tiếng Hàn, cung cấp các tính năng doanh nghiệp như timestamp theo từng từ, context biasing, tách người nói
- Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR·HIPAA, cải thiện đáng kể độ chính xác·tốc độ·hiệu quả chi phí của các ứng dụng dùng giọng nói
Tổng quan về Voxtral Transcribe 2
- Voxtral Transcribe 2 gồm hai mô hình nổi bật với chất lượng nhận dạng giọng nói mới nhất, tách người nói chính xác (diarization) và xử lý độ trễ cực thấp
- Voxtral Mini Transcribe V2: dùng cho chép lời theo lô
- Voxtral Realtime: dùng cho ứng dụng thời gian thực
- Mô hình Realtime được phát hành theo giấy phép Apache 2.0, có thể triển khai cả trong môi trường edge
- Có thể thử nghiệm chép lời ngay qua audio playground trong Mistral Studio
Tóm tắt các tính năng chính
- Voxtral Mini Transcribe V2: hỗ trợ 13 ngôn ngữ, tách người nói, context biasing, timestamp theo từng từ
- Voxtral Realtime: có thể chép lời thời gian thực với độ trễ dưới 200ms, phù hợp cho voice agent và ứng dụng thời gian thực
- Hiệu quả: cung cấp độ chính xác hàng đầu với mức giá thấp nhất ngành
- Open weight: mô hình Realtime được công khai theo Apache 2.0, cho phép triển khai ưu tiên quyền riêng tư
Voxtral Realtime
- Được thiết kế cho các ứng dụng mà độ trễ (latency) là yếu tố quan trọng, mô hình này không xử lý âm thanh theo từng chunk mà thực hiện chép lời thời gian thực bằng kiến trúc streaming
- Có thể cấu hình độ trễ dưới 200ms, ở độ trễ 2,4 giây đạt độ chính xác tương đương mô hình batch, ở độ trễ 480ms vẫn duy trì tỷ lệ lỗi 1~2%
- Hỗ trợ 13 ngôn ngữ (tiếng Anh, tiếng Trung, tiếng Hindi, tiếng Tây Ban Nha, tiếng Ả Rập, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga, tiếng Đức, tiếng Nhật, tiếng Hàn, tiếng Ý, tiếng Hà Lan)
- Với quy mô 4B tham số, mô hình hoạt động hiệu quả ngay cả trên thiết bị edge, đồng thời đảm bảo bảo mật và quyền riêng tư
- Trọng số mô hình được công khai trên Hugging Face Hub
Voxtral Mini Transcribe V2
- Chất lượng chép lời và tách người nói được cải thiện đáng kể trên nhiều ngôn ngữ và miền ứng dụng
- Theo benchmark FLEURS, đạt tỷ lệ lỗi từ khoảng 4%, mang lại hiệu năng trên giá thành hàng đầu với chi phí $0.003/phút
- Có độ chính xác cao hơn GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova; nhanh hơn ElevenLabs Scribe v2 3 lần và chi phí chỉ bằng 1/5
Tính năng doanh nghiệp
- Tách người nói (Speaker diarization): phân biệt người phát biểu và hiển thị thời điểm bắt đầu/kết thúc, phù hợp cho họp, phỏng vấn và cuộc gọi nhiều bên
- Context biasing: có thể chỉ định tối đa 100 từ/cụm từ, cải thiện nhận diện tên riêng và thuật ngữ chuyên môn (tối ưu cho tiếng Anh, các ngôn ngữ khác ở mức thử nghiệm)
- Timestamp theo từng từ: dùng cho tạo phụ đề, tìm kiếm âm thanh và căn chỉnh nội dung
- Hỗ trợ ngôn ngữ mở rộng: hỗ trợ 13 ngôn ngữ, đạt hiệu năng vượt trội so với các mô hình cạnh tranh cả ở thị trường không dùng tiếng Anh
- Khả năng chống ồn: vẫn duy trì độ chính xác trong môi trường nhiều tiếng ồn như nhà máy, call center
- Xử lý âm thanh dài: có thể xử lý một tệp ghi âm dài tối đa 3 giờ chỉ trong một yêu cầu
Audio playground
- Có thể trực tiếp thử nghiệm Voxtral Transcribe 2 trong Mistral Studio
- Hỗ trợ tải lên tối đa 10 tệp âm thanh, cấu hình tách người nói, đơn vị timestamp và context biasing
- Định dạng hỗ trợ: .mp3, .wav, .m4a, .flac, .ogg, tối đa 1GB cho mỗi tệp
Nhiều trường hợp ứng dụng
- Meeting intelligence: có thể phân tích dữ liệu họp quy mô lớn nhờ chép lời họp đa ngôn ngữ và phân biệt người nói
- Voice agent·trợ lý ảo: triển khai giao diện hội thoại tự nhiên với độ trễ dưới 200ms
- Tự động hóa contact center: hỗ trợ phân tích cảm xúc, gợi ý phản hồi và tự động nhập CRM thông qua chép lời cuộc gọi thời gian thực
- Truyền thông·phát sóng: tạo phụ đề đa ngôn ngữ theo thời gian thực, tăng cường nhận diện tên riêng và thuật ngữ chuyên môn
- Tuân thủ quy định·tài liệu hóa: cho phép audit trail dựa trên timestamp theo từng người nói
- Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR và HIPAA, có thể vận hành an toàn trong môi trường on-premise hoặc private cloud
Cách sử dụng và giá
- Voxtral Mini Transcribe V2: $0.003/phút khi dùng qua API, có thể sử dụng trong Mistral Studio hoặc Le Chat
- Voxtral Realtime: $0.006/phút khi dùng qua API, cung cấp open weight trên Hugging Face
- Có thể xem thêm thông tin qua tài liệu tính năng audio·transcription của Mistral
1 bình luận
Ý kiến trên Hacker News
Bản demo này thực sự rất ấn tượng
Dù hiển thị là không có micro, chỉ cần bấm nút ghi âm thì trình duyệt sẽ xin quyền và chạy ngay
Kể cả khi nói nhanh và trộn thuật ngữ chuyên môn, nó vẫn chép lại rất chính xác. Ngay cả cách viết WebAssembly cũng hoàn hảo
Hơn nữa lại còn là open weights, thật sự rất đáng quý
Tôi đã thử nói đồng thời hai ngôn ngữ mà nó vẫn nhận rất chính xác. Thật sự đáng kinh ngạc
Nhận diện tiếng Anh khá tốt, nhưng khi nói tiếng Ba Lan thì nó lại nhận thành tiếng Nga hoặc tiếng Ukraina
Nếu là một công ty có trụ sở ở châu Âu thì tôi nghĩ hỗ trợ các ngôn ngữ châu Âu chính nên tốt hơn
Tôi thử nói xen kẽ tiếng Anh và tiếng Ba Lan thì kết quả ra hoàn toàn lẫn lộn
Nó hỗ trợ 13 ngôn ngữ, nên tôi tò mò nếu có nhiều ngôn ngữ cùng chung gốc từ thì số lượng tham số hoặc nhu cầu dữ liệu huấn luyện sẽ thay đổi ra sao
Con số tỷ lệ lỗi từ 4% theo FLEURS và mức giá $0.003 mỗi phút khá ấn tượng
Amazon Transcribe là $0.024 mỗi phút nên chênh lệch khá lớn
Ví dụ, API Whisper của fal.ai là “$0.00125 mỗi giây compute”, nhưng xử lý ở tốc độ nhanh hơn thời gian thực 10~25 lần nên rẻ hơn rất nhiều
Mô hình này là mô hình đa ngôn ngữ hiểu 14 ngôn ngữ
Nhưng trong phần lớn trường hợp sử dụng, chỉ cần một ngôn ngữ nên các ngôn ngữ còn lại có thể chỉ làm tăng độ trễ
Tôi nghĩ sắp tới sẽ có xu hướng lược bỏ các phần không cần thiết khỏi những mô hình tổng quát như thế này
Có thể xem bài báo liên quan ở đây
Ví dụ: “voila”, “el camino real”
Tuy vậy, có vẻ bên trong họ cũng dùng kiến trúc dựa trên LLM tương tự
Hiệu năng cạnh tranh với Deepgram nova-3, và trong đa số trường hợp còn tốt hơn Assembly hay ElevenLabs
Trong thử nghiệm nội bộ, nó được đánh giá trên bộ dữ liệu cuộc gọi 8kHz với giọng Anh rất nặng, và thực tế ở mức SOTA
Tuy nhiên, phân bố độ trễ (latency) hơi thiếu ổn định. Có vẻ sẽ cải thiện khi chạy cục bộ
Tôi muốn biết cần những tài nguyên phần cứng nào
Không thấy nói rõ là có cần nhiều GPU NVIDIA cao cấp hay có thể chạy offline cả trên thiết bị công suất thấp như ESP32 hay không
Tôi muốn biết liệu cái này có tốt hơn Nvidia Parakeet V3 không. Đến giờ thì đó vẫn là mô hình tốt nhất trên máy cục bộ của tôi
Tham khảo link model, cổng inference và bản GGUF
Tôi tưởng tính năng phân tách người nói (diarization) được tích hợp sẵn, nhưng bản thời gian thực lại không có
Voxtral-Mini-4B-Realtime-2602 là mô hình khoảng 9GB
Tôi đã thử bản demo, nhận diện tiếng Anh rất xuất sắc, và còn phát hiện chuyển ngôn ngữ theo thời gian thực
Nhưng tiếng Ukraina thì hoàn toàn không nhận ra và lúc nào cũng chép thành tiếng Nga
Các mô hình STT khác xử lý tiếng Ukraina khá tốt, nên khá tiếc vì có vẻ dữ liệu huấn luyện ở đây chủ yếu chỉ nhiều tiếng Nga
Mô hình thì tốt đấy, nhưng phiên bản trước không vượt được Parakeet
Cần có so sánh khách quan với các mô hình mới như Qwen3-ASR
Giờ thì khó mà tin được những benchmark được tuyển chọn mà các công ty đưa ra
Ở thời điểm hiện tại, với nhu cầu của tôi thì Parakeet v3 vẫn là thứ nhanh và hiệu quả nhất
Không biết trên điện thoại thì bạn dùng app nào