Ra mắt mô hình Voxtral Transcribe 2

(mistral.ai)

13 điểm bởi GN⁺ 2026-02-05 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình chuyển giọng nói thành văn bản thế hệ mới sở hữu khả năng nhận dạng giọng nói thời gian thực với độ trễ cực thấp và tách người nói có độ chính xác cao
Gồm hai mô hình: Voxtral Mini Transcribe V2 dành cho xử lý batch, và Voxtral Realtime với kiến trúc dành cho ứng dụng thời gian thực
Mô hình Realtime xử lý giọng nói theo phương thức streaming với độ trễ dưới 200ms, được phát hành dưới dạng open weight Apache 2.0
Mini Transcribe V2 hỗ trợ 13 ngôn ngữ bao gồm tiếng Hàn, cung cấp các tính năng doanh nghiệp như timestamp theo từng từ, context biasing, tách người nói
Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR·HIPAA, cải thiện đáng kể độ chính xác·tốc độ·hiệu quả chi phí của các ứng dụng dùng giọng nói

Tổng quan về Voxtral Transcribe 2

Voxtral Transcribe 2 gồm hai mô hình nổi bật với chất lượng nhận dạng giọng nói mới nhất, tách người nói chính xác (diarization) và xử lý độ trễ cực thấp
- Voxtral Mini Transcribe V2: dùng cho chép lời theo lô
- Voxtral Realtime: dùng cho ứng dụng thời gian thực
Mô hình Realtime được phát hành theo giấy phép Apache 2.0, có thể triển khai cả trong môi trường edge
Có thể thử nghiệm chép lời ngay qua audio playground trong Mistral Studio

Tóm tắt các tính năng chính

Voxtral Mini Transcribe V2: hỗ trợ 13 ngôn ngữ, tách người nói, context biasing, timestamp theo từng từ
Voxtral Realtime: có thể chép lời thời gian thực với độ trễ dưới 200ms, phù hợp cho voice agent và ứng dụng thời gian thực
Hiệu quả: cung cấp độ chính xác hàng đầu với mức giá thấp nhất ngành
Open weight: mô hình Realtime được công khai theo Apache 2.0, cho phép triển khai ưu tiên quyền riêng tư

Voxtral Realtime

Được thiết kế cho các ứng dụng mà độ trễ (latency) là yếu tố quan trọng, mô hình này không xử lý âm thanh theo từng chunk mà thực hiện chép lời thời gian thực bằng kiến trúc streaming
Có thể cấu hình độ trễ dưới 200ms, ở độ trễ 2,4 giây đạt độ chính xác tương đương mô hình batch, ở độ trễ 480ms vẫn duy trì tỷ lệ lỗi 1~2%
Hỗ trợ 13 ngôn ngữ (tiếng Anh, tiếng Trung, tiếng Hindi, tiếng Tây Ban Nha, tiếng Ả Rập, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga, tiếng Đức, tiếng Nhật, tiếng Hàn, tiếng Ý, tiếng Hà Lan)
Với quy mô 4B tham số, mô hình hoạt động hiệu quả ngay cả trên thiết bị edge, đồng thời đảm bảo bảo mật và quyền riêng tư
Trọng số mô hình được công khai trên Hugging Face Hub

Voxtral Mini Transcribe V2

Chất lượng chép lời và tách người nói được cải thiện đáng kể trên nhiều ngôn ngữ và miền ứng dụng
Theo benchmark FLEURS, đạt tỷ lệ lỗi từ khoảng 4%, mang lại hiệu năng trên giá thành hàng đầu với chi phí $0.003/phút
Có độ chính xác cao hơn GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova; nhanh hơn ElevenLabs Scribe v2 3 lần và chi phí chỉ bằng 1/5

Tính năng doanh nghiệp

Tách người nói (Speaker diarization): phân biệt người phát biểu và hiển thị thời điểm bắt đầu/kết thúc, phù hợp cho họp, phỏng vấn và cuộc gọi nhiều bên
Context biasing: có thể chỉ định tối đa 100 từ/cụm từ, cải thiện nhận diện tên riêng và thuật ngữ chuyên môn (tối ưu cho tiếng Anh, các ngôn ngữ khác ở mức thử nghiệm)
Timestamp theo từng từ: dùng cho tạo phụ đề, tìm kiếm âm thanh và căn chỉnh nội dung
Hỗ trợ ngôn ngữ mở rộng: hỗ trợ 13 ngôn ngữ, đạt hiệu năng vượt trội so với các mô hình cạnh tranh cả ở thị trường không dùng tiếng Anh
Khả năng chống ồn: vẫn duy trì độ chính xác trong môi trường nhiều tiếng ồn như nhà máy, call center
Xử lý âm thanh dài: có thể xử lý một tệp ghi âm dài tối đa 3 giờ chỉ trong một yêu cầu

Audio playground

Có thể trực tiếp thử nghiệm Voxtral Transcribe 2 trong Mistral Studio
Hỗ trợ tải lên tối đa 10 tệp âm thanh, cấu hình tách người nói, đơn vị timestamp và context biasing
Định dạng hỗ trợ: .mp3, .wav, .m4a, .flac, .ogg, tối đa 1GB cho mỗi tệp

Nhiều trường hợp ứng dụng

Meeting intelligence: có thể phân tích dữ liệu họp quy mô lớn nhờ chép lời họp đa ngôn ngữ và phân biệt người nói
Voice agent·trợ lý ảo: triển khai giao diện hội thoại tự nhiên với độ trễ dưới 200ms
Tự động hóa contact center: hỗ trợ phân tích cảm xúc, gợi ý phản hồi và tự động nhập CRM thông qua chép lời cuộc gọi thời gian thực
Truyền thông·phát sóng: tạo phụ đề đa ngôn ngữ theo thời gian thực, tăng cường nhận diện tên riêng và thuật ngữ chuyên môn
Tuân thủ quy định·tài liệu hóa: cho phép audit trail dựa trên timestamp theo từng người nói

Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR và HIPAA, có thể vận hành an toàn trong môi trường on-premise hoặc private cloud

Cách sử dụng và giá

Voxtral Mini Transcribe V2: $0.003/phút khi dùng qua API, có thể sử dụng trong Mistral Studio hoặc Le Chat
Voxtral Realtime: $0.006/phút khi dùng qua API, cung cấp open weight trên Hugging Face
Có thể xem thêm thông tin qua tài liệu tính năng audio·transcription của Mistral

1 bình luận

GN⁺ 2026-02-05

Ý kiến trên Hacker News

Bản demo này thực sự rất ấn tượng
Dù hiển thị là không có micro, chỉ cần bấm nút ghi âm thì trình duyệt sẽ xin quyền và chạy ngay
Kể cả khi nói nhanh và trộn thuật ngữ chuyên môn, nó vẫn chép lại rất chính xác. Ngay cả cách viết WebAssembly cũng hoàn hảo
- Tôi đã dùng gần như mọi mô hình giọng nói trong 3 năm qua, và đây rõ ràng là một trong những thứ tốt nhất tôi từng thấy cho đến nay
  Hơn nữa lại còn là open weights, thật sự rất đáng quý
- Cảm ơn vì đường link. Playground mặc định của Mistral chỉ cho tải tệp lên nên khó cảm nhận tốc độ và độ chính xác, còn link này cho thấy rõ hiệu năng thời gian thực
  Tôi đã thử nói đồng thời hai ngôn ngữ mà nó vẫn nhận rất chính xác. Thật sự đáng kinh ngạc
- Với môi trường của tôi thì nó không hoạt động. Trên cả Firefox lẫn Chromium đều thấy dạng sóng, nhưng chỉ hiện “Awaiting audio input”
- Link API này trả về lỗi 404. Góc trên bên phải của UI hiện lỗi màu đỏ
- Tốc độ thật đáng kinh ngạc, đến mức đoạn rap nhanh của Eminem cũng được chép lại theo thời gian thực
Nhận diện tiếng Anh khá tốt, nhưng khi nói tiếng Ba Lan thì nó lại nhận thành tiếng Nga hoặc tiếng Ukraina
Nếu là một công ty có trụ sở ở châu Âu thì tôi nghĩ hỗ trợ các ngôn ngữ châu Âu chính nên tốt hơn
Tôi thử nói xen kẽ tiếng Anh và tiếng Ba Lan thì kết quả ra hoàn toàn lẫn lộn
- Mô hình có ghi rõ là không hỗ trợ tiếng Ba Lan mà hỗ trợ tiếng Nga
  Nó hỗ trợ 13 ngôn ngữ, nên tôi tò mò nếu có nhiều ngôn ngữ cùng chung gốc từ thì số lượng tham số hoặc nhu cầu dữ liệu huấn luyện sẽ thay đổi ra sao
- Tôi khuyên chỉ nên thử với các ngôn ngữ có trong danh sách được hỗ trợ
- Khá tiếc khi hiệu năng chỉ tốt ở một số ngôn ngữ nhất định. Chính thức thì chỉ có 13 ngôn ngữ được hỗ trợ mạnh
- Nếu trộn tiếng Ba Lan và tiếng Ukraina thì kết quả sẽ ra tiếng Nga. Ngay cả khi chỉ nói tiếng Ukraina thì nó vẫn luôn phiên âm thành tiếng Nga, khá thất vọng
- Xét về cấu trúc âm vị, tiếng Ba Lan tự nhiên hơn nếu được viết bằng chữ Kirin, nhưng vì lý do lịch sử nên không như vậy. Có vẻ điều này làm AI bị bối rối
Con số tỷ lệ lỗi từ 4% theo FLEURS và mức giá $0.003 mỗi phút khá ấn tượng
Amazon Transcribe là $0.024 mỗi phút nên chênh lệch khá lớn
- Nhưng tôi thắc mắc mức giá này tính theo phút âm thanh hay phút compute
  Ví dụ, API Whisper của fal.ai là “$0.00125 mỗi giây compute”, nhưng xử lý ở tốc độ nhanh hơn thời gian thực 10~25 lần nên rẻ hơn rất nhiều
Mô hình này là mô hình đa ngôn ngữ hiểu 14 ngôn ngữ
Nhưng trong phần lớn trường hợp sử dụng, chỉ cần một ngôn ngữ nên các ngôn ngữ còn lại có thể chỉ làm tăng độ trễ
Tôi nghĩ sắp tới sẽ có xu hướng lược bỏ các phần không cần thiết khỏi những mô hình tổng quát như thế này
Có thể xem bài báo liên quan ở đây
- Nhưng vì có nhiều từ vay mượn giữa các ngôn ngữ nên mô hình đa ngôn ngữ lại có thể hữu ích hơn
  Ví dụ: “voila”, “el camino real”
- Có vẻ mô hình này đã chứng minh được cả hiệu quả lẫn độ chính xác cùng lúc
- Các dịch vụ STT hiện có như Azure, Google, Amazon yêu cầu phải chỉ định ngôn ngữ, nhưng chất lượng vẫn cao
  Tuy vậy, có vẻ bên trong họ cũng dùng kiến trúc dựa trên LLM tương tự
- Con người không chỉ dùng một ngôn ngữ. Code-switching là điều tự nhiên nên mô hình đơn ngữ có giới hạn
- Buồn cười là bình luận phía trên muốn giảm bớt số ngôn ngữ, trong khi các bình luận khác lại phàn nàn là thiếu ngôn ngữ
Hiệu năng cạnh tranh với Deepgram nova-3, và trong đa số trường hợp còn tốt hơn Assembly hay ElevenLabs
Trong thử nghiệm nội bộ, nó được đánh giá trên bộ dữ liệu cuộc gọi 8kHz với giọng Anh rất nặng, và thực tế ở mức SOTA
Tuy nhiên, phân bố độ trễ (latency) hơi thiếu ổn định. Có vẻ sẽ cải thiện khi chạy cục bộ
Tôi muốn biết cần những tài nguyên phần cứng nào
Không thấy nói rõ là có cần nhiều GPU NVIDIA cao cấp hay có thể chạy offline cả trên thiết bị công suất thấp như ESP32 hay không
Tôi muốn biết liệu cái này có tốt hơn Nvidia Parakeet V3 không. Đến giờ thì đó vẫn là mô hình tốt nhất trên máy cục bộ của tôi
- Tôi đang tự port và dùng Nemotron ASR, khá hài lòng
  Tham khảo link model, cổng inference và bản GGUF
- Tôi đã thử Parakeet V3 chạy cục bộ, và cảm giác là mô hình này hơi chậm hơn một chút nhưng độ chính xác cao hơn
- Tôi thích Parakeet v3, nhưng đôi khi nó có vấn đề bỏ sót cả câu
- Parakeet là 0.6B nên chạy được trên thiết bị edge. Voxtral là 4B nên có vẻ khó chạy thời gian thực trên Orin hay Hailo
- Tôi cũng đến đây để hỏi đúng câu này!
Tôi tưởng tính năng phân tách người nói (diarization) được tích hợp sẵn, nhưng bản thời gian thực lại không có
Voxtral-Mini-4B-Realtime-2602 là mô hình khoảng 9GB
- Phân tách người nói chỉ được bao gồm trong bản Voxtral Mini Transcribe V2
Tôi đã thử bản demo, nhận diện tiếng Anh rất xuất sắc, và còn phát hiện chuyển ngôn ngữ theo thời gian thực
Nhưng tiếng Ukraina thì hoàn toàn không nhận ra và lúc nào cũng chép thành tiếng Nga
Các mô hình STT khác xử lý tiếng Ukraina khá tốt, nên khá tiếc vì có vẻ dữ liệu huấn luyện ở đây chủ yếu chỉ nhiều tiếng Nga
- Vì mô hình chỉ hỗ trợ tiếng Nga, nó sẽ ánh xạ đầu vào tiếng Ukraina sang những từ tiếng Nga gần nhất
Mô hình thì tốt đấy, nhưng phiên bản trước không vượt được Parakeet
Cần có so sánh khách quan với các mô hình mới như Qwen3-ASR
Giờ thì khó mà tin được những benchmark được tuyển chọn mà các công ty đưa ra
Ở thời điểm hiện tại, với nhu cầu của tôi thì Parakeet v3 vẫn là thứ nhanh và hiệu quả nhất
- Có Open ASR Leaderboard, nhưng đã nửa năm chưa cập nhật
- Tôi cũng thích Parakeet và dùng qua app Handy trên Mac.
  Không biết trên điện thoại thì bạn dùng app nào

Ra mắt mô hình Voxtral Transcribe 2

Tổng quan về Voxtral Transcribe 2

Tóm tắt các tính năng chính

Voxtral Realtime

Voxtral Mini Transcribe V2

Tính năng doanh nghiệp

Audio playground

Nhiều trường hợp ứng dụng

Cách sử dụng và giá

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News