13 điểm bởi GN⁺ 2026-02-05 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình chuyển giọng nói thành văn bản thế hệ mới sở hữu khả năng nhận dạng giọng nói thời gian thực với độ trễ cực thấptách người nói có độ chính xác cao
  • Gồm hai mô hình: Voxtral Mini Transcribe V2 dành cho xử lý batch, và Voxtral Realtime với kiến trúc dành cho ứng dụng thời gian thực
  • Mô hình Realtime xử lý giọng nói theo phương thức streaming với độ trễ dưới 200ms, được phát hành dưới dạng open weight Apache 2.0
  • Mini Transcribe V2 hỗ trợ 13 ngôn ngữ bao gồm tiếng Hàn, cung cấp các tính năng doanh nghiệp như timestamp theo từng từ, context biasing, tách người nói
  • Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR·HIPAA, cải thiện đáng kể độ chính xác·tốc độ·hiệu quả chi phí của các ứng dụng dùng giọng nói

Tổng quan về Voxtral Transcribe 2

  • Voxtral Transcribe 2 gồm hai mô hình nổi bật với chất lượng nhận dạng giọng nói mới nhất, tách người nói chính xác (diarization)xử lý độ trễ cực thấp
    • Voxtral Mini Transcribe V2: dùng cho chép lời theo lô
    • Voxtral Realtime: dùng cho ứng dụng thời gian thực
  • Mô hình Realtime được phát hành theo giấy phép Apache 2.0, có thể triển khai cả trong môi trường edge
  • Có thể thử nghiệm chép lời ngay qua audio playground trong Mistral Studio

Tóm tắt các tính năng chính

  • Voxtral Mini Transcribe V2: hỗ trợ 13 ngôn ngữ, tách người nói, context biasing, timestamp theo từng từ
  • Voxtral Realtime: có thể chép lời thời gian thực với độ trễ dưới 200ms, phù hợp cho voice agent và ứng dụng thời gian thực
  • Hiệu quả: cung cấp độ chính xác hàng đầu với mức giá thấp nhất ngành
  • Open weight: mô hình Realtime được công khai theo Apache 2.0, cho phép triển khai ưu tiên quyền riêng tư

Voxtral Realtime

  • Được thiết kế cho các ứng dụng mà độ trễ (latency) là yếu tố quan trọng, mô hình này không xử lý âm thanh theo từng chunk mà thực hiện chép lời thời gian thực bằng kiến trúc streaming
  • Có thể cấu hình độ trễ dưới 200ms, ở độ trễ 2,4 giây đạt độ chính xác tương đương mô hình batch, ở độ trễ 480ms vẫn duy trì tỷ lệ lỗi 1~2%
  • Hỗ trợ 13 ngôn ngữ (tiếng Anh, tiếng Trung, tiếng Hindi, tiếng Tây Ban Nha, tiếng Ả Rập, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga, tiếng Đức, tiếng Nhật, tiếng Hàn, tiếng Ý, tiếng Hà Lan)
  • Với quy mô 4B tham số, mô hình hoạt động hiệu quả ngay cả trên thiết bị edge, đồng thời đảm bảo bảo mật và quyền riêng tư
  • Trọng số mô hình được công khai trên Hugging Face Hub

Voxtral Mini Transcribe V2

  • Chất lượng chép lời và tách người nói được cải thiện đáng kể trên nhiều ngôn ngữ và miền ứng dụng
  • Theo benchmark FLEURS, đạt tỷ lệ lỗi từ khoảng 4%, mang lại hiệu năng trên giá thành hàng đầu với chi phí $0.003/phút
  • Có độ chính xác cao hơn GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova; nhanh hơn ElevenLabs Scribe v2 3 lần và chi phí chỉ bằng 1/5

Tính năng doanh nghiệp

  • Tách người nói (Speaker diarization): phân biệt người phát biểu và hiển thị thời điểm bắt đầu/kết thúc, phù hợp cho họp, phỏng vấn và cuộc gọi nhiều bên
  • Context biasing: có thể chỉ định tối đa 100 từ/cụm từ, cải thiện nhận diện tên riêng và thuật ngữ chuyên môn (tối ưu cho tiếng Anh, các ngôn ngữ khác ở mức thử nghiệm)
  • Timestamp theo từng từ: dùng cho tạo phụ đề, tìm kiếm âm thanh và căn chỉnh nội dung
  • Hỗ trợ ngôn ngữ mở rộng: hỗ trợ 13 ngôn ngữ, đạt hiệu năng vượt trội so với các mô hình cạnh tranh cả ở thị trường không dùng tiếng Anh
  • Khả năng chống ồn: vẫn duy trì độ chính xác trong môi trường nhiều tiếng ồn như nhà máy, call center
  • Xử lý âm thanh dài: có thể xử lý một tệp ghi âm dài tối đa 3 giờ chỉ trong một yêu cầu

Audio playground

  • Có thể trực tiếp thử nghiệm Voxtral Transcribe 2 trong Mistral Studio
  • Hỗ trợ tải lên tối đa 10 tệp âm thanh, cấu hình tách người nói, đơn vị timestamp và context biasing
  • Định dạng hỗ trợ: .mp3, .wav, .m4a, .flac, .ogg, tối đa 1GB cho mỗi tệp

Nhiều trường hợp ứng dụng

  • Meeting intelligence: có thể phân tích dữ liệu họp quy mô lớn nhờ chép lời họp đa ngôn ngữ và phân biệt người nói
  • Voice agent·trợ lý ảo: triển khai giao diện hội thoại tự nhiên với độ trễ dưới 200ms
  • Tự động hóa contact center: hỗ trợ phân tích cảm xúc, gợi ý phản hồi và tự động nhập CRM thông qua chép lời cuộc gọi thời gian thực
  • Truyền thông·phát sóng: tạo phụ đề đa ngôn ngữ theo thời gian thực, tăng cường nhận diện tên riêng và thuật ngữ chuyên môn
  • Tuân thủ quy định·tài liệu hóa: cho phép audit trail dựa trên timestamp theo từng người nói
  • Cả hai mô hình đều hỗ trợ triển khai tuân thủ GDPR và HIPAA, có thể vận hành an toàn trong môi trường on-premise hoặc private cloud

Cách sử dụng và giá

  • Voxtral Mini Transcribe V2: $0.003/phút khi dùng qua API, có thể sử dụng trong Mistral Studio hoặc Le Chat
  • Voxtral Realtime: $0.006/phút khi dùng qua API, cung cấp open weight trên Hugging Face
  • Có thể xem thêm thông tin qua tài liệu tính năng audio·transcription của Mistral

1 bình luận

 
GN⁺ 2026-02-05
Ý kiến trên Hacker News
  • Bản demo này thực sự rất ấn tượng
    Dù hiển thị là không có micro, chỉ cần bấm nút ghi âm thì trình duyệt sẽ xin quyền và chạy ngay
    Kể cả khi nói nhanh và trộn thuật ngữ chuyên môn, nó vẫn chép lại rất chính xác. Ngay cả cách viết WebAssembly cũng hoàn hảo

    • Tôi đã dùng gần như mọi mô hình giọng nói trong 3 năm qua, và đây rõ ràng là một trong những thứ tốt nhất tôi từng thấy cho đến nay
      Hơn nữa lại còn là open weights, thật sự rất đáng quý
    • Cảm ơn vì đường link. Playground mặc định của Mistral chỉ cho tải tệp lên nên khó cảm nhận tốc độ và độ chính xác, còn link này cho thấy rõ hiệu năng thời gian thực
      Tôi đã thử nói đồng thời hai ngôn ngữ mà nó vẫn nhận rất chính xác. Thật sự đáng kinh ngạc
    • Với môi trường của tôi thì nó không hoạt động. Trên cả Firefox lẫn Chromium đều thấy dạng sóng, nhưng chỉ hiện “Awaiting audio input”
    • Link API này trả về lỗi 404. Góc trên bên phải của UI hiện lỗi màu đỏ
    • Tốc độ thật đáng kinh ngạc, đến mức đoạn rap nhanh của Eminem cũng được chép lại theo thời gian thực
  • Nhận diện tiếng Anh khá tốt, nhưng khi nói tiếng Ba Lan thì nó lại nhận thành tiếng Nga hoặc tiếng Ukraina
    Nếu là một công ty có trụ sở ở châu Âu thì tôi nghĩ hỗ trợ các ngôn ngữ châu Âu chính nên tốt hơn
    Tôi thử nói xen kẽ tiếng Anh và tiếng Ba Lan thì kết quả ra hoàn toàn lẫn lộn

    • Mô hình có ghi rõ là không hỗ trợ tiếng Ba Lan mà hỗ trợ tiếng Nga
      Nó hỗ trợ 13 ngôn ngữ, nên tôi tò mò nếu có nhiều ngôn ngữ cùng chung gốc từ thì số lượng tham số hoặc nhu cầu dữ liệu huấn luyện sẽ thay đổi ra sao
    • Tôi khuyên chỉ nên thử với các ngôn ngữ có trong danh sách được hỗ trợ
    • Khá tiếc khi hiệu năng chỉ tốt ở một số ngôn ngữ nhất định. Chính thức thì chỉ có 13 ngôn ngữ được hỗ trợ mạnh
    • Nếu trộn tiếng Ba Lan và tiếng Ukraina thì kết quả sẽ ra tiếng Nga. Ngay cả khi chỉ nói tiếng Ukraina thì nó vẫn luôn phiên âm thành tiếng Nga, khá thất vọng
    • Xét về cấu trúc âm vị, tiếng Ba Lan tự nhiên hơn nếu được viết bằng chữ Kirin, nhưng vì lý do lịch sử nên không như vậy. Có vẻ điều này làm AI bị bối rối
  • Con số tỷ lệ lỗi từ 4% theo FLEURS và mức giá $0.003 mỗi phút khá ấn tượng
    Amazon Transcribe là $0.024 mỗi phút nên chênh lệch khá lớn

    • Nhưng tôi thắc mắc mức giá này tính theo phút âm thanh hay phút compute
      Ví dụ, API Whisper của fal.ai là “$0.00125 mỗi giây compute”, nhưng xử lý ở tốc độ nhanh hơn thời gian thực 10~25 lần nên rẻ hơn rất nhiều
  • Mô hình này là mô hình đa ngôn ngữ hiểu 14 ngôn ngữ
    Nhưng trong phần lớn trường hợp sử dụng, chỉ cần một ngôn ngữ nên các ngôn ngữ còn lại có thể chỉ làm tăng độ trễ
    Tôi nghĩ sắp tới sẽ có xu hướng lược bỏ các phần không cần thiết khỏi những mô hình tổng quát như thế này
    Có thể xem bài báo liên quan ở đây

    • Nhưng vì có nhiều từ vay mượn giữa các ngôn ngữ nên mô hình đa ngôn ngữ lại có thể hữu ích hơn
      Ví dụ: “voila”, “el camino real”
    • Có vẻ mô hình này đã chứng minh được cả hiệu quả lẫn độ chính xác cùng lúc
    • Các dịch vụ STT hiện có như Azure, Google, Amazon yêu cầu phải chỉ định ngôn ngữ, nhưng chất lượng vẫn cao
      Tuy vậy, có vẻ bên trong họ cũng dùng kiến trúc dựa trên LLM tương tự
    • Con người không chỉ dùng một ngôn ngữ. Code-switching là điều tự nhiên nên mô hình đơn ngữ có giới hạn
    • Buồn cười là bình luận phía trên muốn giảm bớt số ngôn ngữ, trong khi các bình luận khác lại phàn nàn là thiếu ngôn ngữ
  • Hiệu năng cạnh tranh với Deepgram nova-3, và trong đa số trường hợp còn tốt hơn Assembly hay ElevenLabs
    Trong thử nghiệm nội bộ, nó được đánh giá trên bộ dữ liệu cuộc gọi 8kHz với giọng Anh rất nặng, và thực tế ở mức SOTA
    Tuy nhiên, phân bố độ trễ (latency) hơi thiếu ổn định. Có vẻ sẽ cải thiện khi chạy cục bộ

  • Tôi muốn biết cần những tài nguyên phần cứng nào
    Không thấy nói rõ là có cần nhiều GPU NVIDIA cao cấp hay có thể chạy offline cả trên thiết bị công suất thấp như ESP32 hay không

  • Tôi muốn biết liệu cái này có tốt hơn Nvidia Parakeet V3 không. Đến giờ thì đó vẫn là mô hình tốt nhất trên máy cục bộ của tôi

    • Tôi đang tự port và dùng Nemotron ASR, khá hài lòng
      Tham khảo link model, cổng inferencebản GGUF
    • Tôi đã thử Parakeet V3 chạy cục bộ, và cảm giác là mô hình này hơi chậm hơn một chút nhưng độ chính xác cao hơn
    • Tôi thích Parakeet v3, nhưng đôi khi nó có vấn đề bỏ sót cả câu
    • Parakeet là 0.6B nên chạy được trên thiết bị edge. Voxtral là 4B nên có vẻ khó chạy thời gian thực trên Orin hay Hailo
    • Tôi cũng đến đây để hỏi đúng câu này!
  • Tôi tưởng tính năng phân tách người nói (diarization) được tích hợp sẵn, nhưng bản thời gian thực lại không có
    Voxtral-Mini-4B-Realtime-2602 là mô hình khoảng 9GB

    • Phân tách người nói chỉ được bao gồm trong bản Voxtral Mini Transcribe V2
  • Tôi đã thử bản demo, nhận diện tiếng Anh rất xuất sắc, và còn phát hiện chuyển ngôn ngữ theo thời gian thực
    Nhưng tiếng Ukraina thì hoàn toàn không nhận ra và lúc nào cũng chép thành tiếng Nga
    Các mô hình STT khác xử lý tiếng Ukraina khá tốt, nên khá tiếc vì có vẻ dữ liệu huấn luyện ở đây chủ yếu chỉ nhiều tiếng Nga

    • Vì mô hình chỉ hỗ trợ tiếng Nga, nó sẽ ánh xạ đầu vào tiếng Ukraina sang những từ tiếng Nga gần nhất
  • Mô hình thì tốt đấy, nhưng phiên bản trước không vượt được Parakeet
    Cần có so sánh khách quan với các mô hình mới như Qwen3-ASR
    Giờ thì khó mà tin được những benchmark được tuyển chọn mà các công ty đưa ra
    Ở thời điểm hiện tại, với nhu cầu của tôi thì Parakeet v3 vẫn là thứ nhanh và hiệu quả nhất

    • Open ASR Leaderboard, nhưng đã nửa năm chưa cập nhật
    • Tôi cũng thích Parakeet và dùng qua app Handy trên Mac.
      Không biết trên điện thoại thì bạn dùng app nào