- Mô hình nhận dạng giọng nói tự động (ASR) hiện đại quy mô 2B (2 tỷ) tham số, hỗ trợ 14 ngôn ngữ gồm tiếng Anh, tiếng Hàn, tiếng Trung và nhiều ngôn ngữ khác
- Sử dụng kiến trúc encoder-decoder dựa trên Conformer và được phát hành theo giấy phép Apache 2.0
- Với tỷ lệ lỗi từ trung bình (WER) 5,42% trên tiếng Anh, mô hình vượt qua các đối thủ chính như Whisper Large v3 và đứng số 1 trên Hugging Face Open ASR Leaderboard
- Cho thấy độ chính xác và tính nhất quán cao cả trong đánh giá môi trường thực tế lẫn đánh giá của con người, đồng thời duy trì hiệu năng ổn định ở tác vụ chép lời đa ngôn ngữ
- Đồng thời đạt được độ trễ thấp và hiệu suất xử lý cao, phù hợp cho sản phẩm thời gian thực và các workflow
Tổng quan về Cohere Transcribe
- Giọng nói đang nổi lên như dạng đầu vào cốt lõi cho tự động hóa công việc dựa trên AI, như ghi biên bản họp, phân tích giọng nói và hỗ trợ khách hàng theo thời gian thực
- Mô hình này được huấn luyện mới hoàn toàn từ đầu với mục tiêu giảm thiểu tỷ lệ lỗi từ (WER), và được thiết kế hướng đến việc sử dụng trong môi trường dịch vụ thực tế chứ không chỉ cho nghiên cứu
- Có thể suy luận hiệu quả trên GPU và trong môi trường cục bộ, đồng thời cũng khả dụng trên nền tảng suy luận được quản lý Model Vault của Cohere
- Đứng số 1 về độ chính xác trên Open ASR Leaderboard của Hugging Face, qua đó thiết lập một chuẩn mới cho hiệu năng chép lời trong môi trường thực tế
Kiến trúc mô hình
- Tên mô hình là cohere-transcribe-03-2026, sử dụng kiến trúc encoder-decoder dựa trên Conformer
- Đầu vào là dạng sóng âm thanh được chuyển thành log-Mel spectrogram, đầu ra là văn bản chép lời
- Encoder Conformer lớn quy mô 2B (2 tỷ) tham số trích xuất biểu diễn âm học, còn decoder Transformer gọn nhẹ tạo ra các token
- Được huấn luyện từ đầu bằng học có giám sát với hàm mất mát cross-entropy tiêu chuẩn
-
Hỗ trợ 14 ngôn ngữ
- Châu Âu: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Hy Lạp, tiếng Hà Lan, tiếng Ba Lan
- Châu Á - Thái Bình Dương: tiếng Trung (Quan thoại), tiếng Nhật, tiếng Hàn, tiếng Việt
- Trung Đông - Bắc Phi: tiếng Ả Rập
- Phát hành theo giấy phép Apache 2.0
Hiệu năng mô hình
- Đạt chuẩn mới nhất về độ chính xác nhận dạng giọng nói tiếng Anh, với WER trung bình 5,42%, là hiệu năng tốt nhất trong số các mô hình ASR công khai và không công khai
- Vượt qua các đối thủ chính như Whisper Large v3, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B
- Duy trì hiệu năng mạnh mẽ trong nhiều môi trường thực tế khác nhau như nhiều người nói, âm học phòng họp và đa dạng giọng địa phương
- Kết quả benchmark chính
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Với WER trung bình 5,42, mô hình tốt hơn Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B (5.63)
- Hugging Face Open ASR Leaderboard đánh giá bằng WER chuẩn hóa trên nhiều bộ dữ liệu, trong đó WER thấp hơn đồng nghĩa với độ chính xác chép lời cao hơn
Kết quả đánh giá của con người
- Xác nhận cùng một mức hiệu năng vượt trội trong đánh giá môi trường thực tế ngoài benchmark
- Các chuyên gia đánh giá đã chấm kết quả chép lời âm thanh thực tế theo các tiêu chí độ chính xác, tính nhất quán và khả năng sử dụng
- Cả đánh giá tự động và đánh giá của con người đều cho thấy hiệu năng vượt trội một cách nhất quán
- Trong đánh giá so sánh chất lượng chép lời tiếng Anh, mô hình đạt mức được ưa chuộng cao ở các tiêu chí như bảo toàn ý nghĩa, ngăn hallucination, nhận diện danh từ riêng và độ chính xác định dạng
- Trong đánh giá của con người theo từng ngôn ngữ được hỗ trợ, mô hình cũng ghi nhận tỷ lệ được ưa chuộng trên 50%, chứng minh hiệu năng ổn định trong môi trường đa ngôn ngữ
Tốc độ xử lý và hiệu quả
- Trong môi trường dịch vụ thực tế, độ trễ (latency) và thông lượng (throughput) là những ràng buộc cốt lõi
- Dù độ chính xác cao, nếu chậm hoặc tiêu tốn nhiều tài nguyên thì sẽ ảnh hưởng trực tiếp đến trải nghiệm người dùng và chi phí
- Cohere Transcribe duy trì mức hiệu quả xử lý hàng đầu trong nhóm mô hình trên 1B tham số, đồng thời đạt được WER thấp và RTFx cao
- RTFx là chỉ số cho biết mức độ xử lý đầu vào âm thanh nhanh hơn thời gian thực bao nhiêu lần; Transcribe mở rộng đường biên Pareto cả về độ chính xác lẫn tốc độ
-
Đánh giá của Radical Ventures
- Phó chủ tịch của Radical Ventures, Paige Dickie, đánh giá rất cao tốc độ và chất lượng của Transcribe
- Bà nhận xét: “Mô hình có thể chép lời vài phút âm thanh chỉ trong vài giây, mở ra những khả năng mới cho sản phẩm và workflow thời gian thực”
- Đồng thời đánh giá rằng mô hình cung cấp chất lượng chép lời mạnh mẽ, đáng tin cậy ngay cả với lời nói đời thường, và trải nghiệm sử dụng rất mượt mà
Định hướng phát triển tiếp theo
- Cohere dự kiến tích hợp Transcribe với North, nền tảng điều phối AI agent của hãng
- Trong tương lai, Transcribe sẽ vượt ra ngoài vai trò mô hình chép lời đơn thuần để mở rộng thành nền tảng trí tuệ giọng nói cho doanh nghiệp
Sử dụng và triển khai
- Có thể tải mô hình từ Hugging Face, đồng thời chạy được trong môi trường cục bộ hoặc edge
- Có thể thử nghiệm miễn phí qua Cohere API, nhưng có tồn tại giới hạn yêu cầu (rate limit)
- Cách sử dụng và hướng dẫn tích hợp được cung cấp trong tài liệu chính thức
- Khi dùng Model Vault, có thể thực hiện suy luận độ trễ thấp trên private cloud mà không cần tự quản lý hạ tầng
- Áp dụng gói tính phí theo giờ cho instance, có ưu đãi giảm giá khi sử dụng dài hạn
- Có thể liên hệ đội ngũ kinh doanh của Cohere để hỏi về triển khai cho doanh nghiệp
2 bình luận
Vậy đây không phải mã nguồn mở mà là dịch vụ trả phí sao?
Ý kiến trên Hacker News
Tôi lo rằng ASR (nhận dạng giọng nói tự động) cuối cùng sẽ trở thành giống như OCR
Nếu các AI lớn đa phương thức đủ nhanh và hiểu ngữ cảnh đủ sâu, có vẻ chúng sẽ hấp thụ hết các kỹ thuật hiện có
Với OCR cũng vậy, ngay cả khi chữ bị quét mờ, AI vẫn có thể suy luận ý nghĩa của tài liệu và nhận ra theo các mẫu như “mã đơn hàng thường nằm dưới ngày đặt hàng”
Nếu ASR cũng bắt đầu “đoán” dựa trên ngữ cảnh theo cách này, sẽ có nguy cơ làm sai lệch lời nói thực tế
ASR tốt có thể hiểu được cả đoạn nói lẫn nhiều tạp âm mà tôi nghe không ra, nhưng đôi khi lại sửa quá tay và biến từ hiếm thành từ thông dụng
Với OCR cũng có thể sinh ra dữ liệu sai nhưng trông hợp lý, như trong vụ Xerox
Vì thế tôi chỉ dùng OCR cho mục đích tìm kiếm, và luôn giữ lại bản quét gốc
Các LLM đa phương thức như gpt-4o-transcribe vượt xa nhận dạng giọng nói đơn thuần
Có thể đưa thuật ngữ chuyên môn hay sơ đồ tổ chức của công ty vào prompt, nên những câu như “bảo Kaitlyn review PR” cũng phân biệt đúng người
Với công cụ mã nguồn mở cho Mac mà tôi làm, bạn có thể thử khóa API OpenAI và prompt tùy chỉnh
Công nghệ tiến bộ thì dù một số kỹ thuật biến mất, cuối cùng chẳng phải vẫn đi theo hướng tốt hơn sao?
Từ khi Whisper xuất hiện, số lượng mô hình nhận dạng giọng nói chạy cục bộ đã bùng nổ
Ví dụ: superwhisper.com, carelesswhisper.app, macwhisper.com
Nếu xử lý trực tiếp trên thiết bị có microphone, có thể giảm đáng kể băng thông và thậm chí không cần gửi lên đám mây
Khá tiếc là mô hình không có timestamp hay tách người nói (diarization)
Tôi tự hỏi liệu WhisperX có còn là lựa chọn tốt nhất cho mục đích đó không
Google Chirp có nhiều vấn đề như bỏ sót đoạn, hallucination, và timestamp lệch nhau
AWS khá hơn một chút nhưng đồng bộ ở cấp độ từng từ vẫn thiếu ổn định
Whisper cũng hay hallucination, còn các mô hình mới của OpenAI thì chính xác nhưng không hỗ trợ timestamp
Cuối cùng vẫn có thể xử lý bằng hậu kỳ, nhưng tôi ước gì có một API có thể dùng mà không phải lo lắng
Có lẽ sắp có cả phiên bản tích hợp cho Cohere Transcribe
Có ví dụ kèm timestamp ở cuối trang
Nó dùng trọng số cross-attention của Whisper để căn chỉnh bằng Dynamic Time Warping mà không cần mô hình bổ sung
Tôi rất hài lòng với dịch vụ của Cohere
Vài tháng trước tôi đã chuyển sang mô hình clip-style embedding, và trong số các dịch vụ bên ngoài tôi từng dùng, nó có độ trễ P50 ổn định nhất
Mô hình của Cohere thường khá nhỏ và hiệu năng cũng thấp hơn
Nhiều mô hình STT chỉ được huấn luyện trên giọng phát âm hoàn hảo, nên khá yếu với giọng nước ngoài
Là người nói tiếng Anh với giọng Pháp, tôi rất muốn thử mô hình này
Từ trước đến nay, thứ hoạt động tốt nhất trong ứng dụng học ngôn ngữ của tôi (Copycat Cafe) là Soniox, còn các mô hình dựa trên Whisper thì lại có xu hướng tạo ra câu hallucination
Tôi đã thử với bộ dữ liệu nội bộ của chúng tôi (250 mẫu đọc mã bưu chính Anh) và nó khá cạnh tranh
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics khoảng 54%
Khá tiếc là mô hình này không hỗ trợ từ điển từ tùy chỉnh, word boosting, hay thêm prompt
Có lẽ đây lại là một mô hình ASR thiên về benchmark nữa
Tôi đăng các bản cắt từ stream Twitch lên YouTube và dùng Whisper-large-v3 để tạo phụ đề
Điều kiện của một ASR tốt là
Với WhisperX, có thể chép lời trong 5 phút, nhưng vấn đề lớn nhất vẫn là bỏ sót câu
Nếu gọi là “mã nguồn mở”, tôi thắc mắc là có mã nguồn thật hay chỉ công bố trọng số mô hình
và còn có bản chuyển đổi ONNX nên chạy được cả trên CPU
Huấn luyện mô hình quá tốn kém, nên chỉ cần chia sẻ thành phẩm thôi cũng đã rất hữu ích rồi
Tôi muốn biết liệu mô hình này có phải là SOTA trong cùng cỡ hay không
Muốn biết nó có tốt hơn Parakeet không
Parakeet (0.6B) tuy nhanh nhưng xét theo WER thì chỉ ở khoảng top 10
Trước đây tôi từng dùng Dragon Dictate, nhưng mất nhiều thời gian để huấn luyện mà kết quả cũng không tốt
Gần đây tôi làm một buổi phỏng vấn podcast, và Apple Podcasts tự động tạo bản chép lời bằng AI
Lỗi không nhiều, nhưng điều bất tiện nhất là không phân biệt được người nói
Hồi nhỏ tôi đã tải quá nhiều phần mềm shareware TTS/nhận dạng giọng nói kiểu đó