Cohere Transcribe - Mô hình nhận dạng giọng nói mã nguồn mở SOTA

(cohere.com)

3 điểm bởi GN⁺ 19 ngày trước | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình nhận dạng giọng nói tự động (ASR) hiện đại quy mô 2B (2 tỷ) tham số, hỗ trợ 14 ngôn ngữ gồm tiếng Anh, tiếng Hàn, tiếng Trung và nhiều ngôn ngữ khác
Sử dụng kiến trúc encoder-decoder dựa trên Conformer và được phát hành theo giấy phép Apache 2.0
Với tỷ lệ lỗi từ trung bình (WER) 5,42% trên tiếng Anh, mô hình vượt qua các đối thủ chính như Whisper Large v3 và đứng số 1 trên Hugging Face Open ASR Leaderboard
Cho thấy độ chính xác và tính nhất quán cao cả trong đánh giá môi trường thực tế lẫn đánh giá của con người, đồng thời duy trì hiệu năng ổn định ở tác vụ chép lời đa ngôn ngữ
Đồng thời đạt được độ trễ thấp và hiệu suất xử lý cao, phù hợp cho sản phẩm thời gian thực và các workflow

Tổng quan về Cohere Transcribe

Giọng nói đang nổi lên như dạng đầu vào cốt lõi cho tự động hóa công việc dựa trên AI, như ghi biên bản họp, phân tích giọng nói và hỗ trợ khách hàng theo thời gian thực
Mô hình này được huấn luyện mới hoàn toàn từ đầu với mục tiêu giảm thiểu tỷ lệ lỗi từ (WER), và được thiết kế hướng đến việc sử dụng trong môi trường dịch vụ thực tế chứ không chỉ cho nghiên cứu
Có thể suy luận hiệu quả trên GPU và trong môi trường cục bộ, đồng thời cũng khả dụng trên nền tảng suy luận được quản lý Model Vault của Cohere
Đứng số 1 về độ chính xác trên Open ASR Leaderboard của Hugging Face, qua đó thiết lập một chuẩn mới cho hiệu năng chép lời trong môi trường thực tế

Kiến trúc mô hình

Tên mô hình là cohere-transcribe-03-2026, sử dụng kiến trúc encoder-decoder dựa trên Conformer
- Đầu vào là dạng sóng âm thanh được chuyển thành log-Mel spectrogram, đầu ra là văn bản chép lời
- Encoder Conformer lớn quy mô 2B (2 tỷ) tham số trích xuất biểu diễn âm học, còn decoder Transformer gọn nhẹ tạo ra các token
Được huấn luyện từ đầu bằng học có giám sát với hàm mất mát cross-entropy tiêu chuẩn
Hỗ trợ 14 ngôn ngữ
- Châu Âu: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Hy Lạp, tiếng Hà Lan, tiếng Ba Lan
- Châu Á - Thái Bình Dương: tiếng Trung (Quan thoại), tiếng Nhật, tiếng Hàn, tiếng Việt
- Trung Đông - Bắc Phi: tiếng Ả Rập
- Phát hành theo giấy phép Apache 2.0

Hiệu năng mô hình

Đạt chuẩn mới nhất về độ chính xác nhận dạng giọng nói tiếng Anh, với WER trung bình 5,42%, là hiệu năng tốt nhất trong số các mô hình ASR công khai và không công khai
- Vượt qua các đối thủ chính như Whisper Large v3, ElevenLabs Scribe v2 và Qwen3-ASR-1.7B
Duy trì hiệu năng mạnh mẽ trong nhiều môi trường thực tế khác nhau như nhiều người nói, âm học phòng họp và đa dạng giọng địa phương
Kết quả benchmark chính
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Với WER trung bình 5,42, mô hình tốt hơn Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B (5.63)
Hugging Face Open ASR Leaderboard đánh giá bằng WER chuẩn hóa trên nhiều bộ dữ liệu, trong đó WER thấp hơn đồng nghĩa với độ chính xác chép lời cao hơn

Kết quả đánh giá của con người

Xác nhận cùng một mức hiệu năng vượt trội trong đánh giá môi trường thực tế ngoài benchmark
- Các chuyên gia đánh giá đã chấm kết quả chép lời âm thanh thực tế theo các tiêu chí độ chính xác, tính nhất quán và khả năng sử dụng
- Cả đánh giá tự động và đánh giá của con người đều cho thấy hiệu năng vượt trội một cách nhất quán
Trong đánh giá so sánh chất lượng chép lời tiếng Anh, mô hình đạt mức được ưa chuộng cao ở các tiêu chí như bảo toàn ý nghĩa, ngăn hallucination, nhận diện danh từ riêng và độ chính xác định dạng
Trong đánh giá của con người theo từng ngôn ngữ được hỗ trợ, mô hình cũng ghi nhận tỷ lệ được ưa chuộng trên 50%, chứng minh hiệu năng ổn định trong môi trường đa ngôn ngữ

Tốc độ xử lý và hiệu quả

Trong môi trường dịch vụ thực tế, độ trễ (latency) và thông lượng (throughput) là những ràng buộc cốt lõi
- Dù độ chính xác cao, nếu chậm hoặc tiêu tốn nhiều tài nguyên thì sẽ ảnh hưởng trực tiếp đến trải nghiệm người dùng và chi phí
Cohere Transcribe duy trì mức hiệu quả xử lý hàng đầu trong nhóm mô hình trên 1B tham số, đồng thời đạt được WER thấp và RTFx cao
RTFx là chỉ số cho biết mức độ xử lý đầu vào âm thanh nhanh hơn thời gian thực bao nhiêu lần; Transcribe mở rộng đường biên Pareto cả về độ chính xác lẫn tốc độ
Đánh giá của Radical Ventures
- Phó chủ tịch của Radical Ventures, Paige Dickie, đánh giá rất cao tốc độ và chất lượng của Transcribe
- Bà nhận xét: “Mô hình có thể chép lời vài phút âm thanh chỉ trong vài giây, mở ra những khả năng mới cho sản phẩm và workflow thời gian thực”
- Đồng thời đánh giá rằng mô hình cung cấp chất lượng chép lời mạnh mẽ, đáng tin cậy ngay cả với lời nói đời thường, và trải nghiệm sử dụng rất mượt mà

Định hướng phát triển tiếp theo

Cohere dự kiến tích hợp Transcribe với North, nền tảng điều phối AI agent của hãng
- Trong tương lai, Transcribe sẽ vượt ra ngoài vai trò mô hình chép lời đơn thuần để mở rộng thành nền tảng trí tuệ giọng nói cho doanh nghiệp

Sử dụng và triển khai

Có thể tải mô hình từ Hugging Face, đồng thời chạy được trong môi trường cục bộ hoặc edge
Có thể thử nghiệm miễn phí qua Cohere API, nhưng có tồn tại giới hạn yêu cầu (rate limit)
- Cách sử dụng và hướng dẫn tích hợp được cung cấp trong tài liệu chính thức
Khi dùng Model Vault, có thể thực hiện suy luận độ trễ thấp trên private cloud mà không cần tự quản lý hạ tầng
- Áp dụng gói tính phí theo giờ cho instance, có ưu đãi giảm giá khi sử dụng dài hạn
- Có thể liên hệ đội ngũ kinh doanh của Cohere để hỏi về triển khai cho doanh nghiệp

2 bình luận

j2sus91 19 ngày trước

Vậy đây không phải mã nguồn mở mà là dịch vụ trả phí sao?

GN⁺ 19 ngày trước

Ý kiến trên Hacker News

Tôi lo rằng ASR (nhận dạng giọng nói tự động) cuối cùng sẽ trở thành giống như OCR
Nếu các AI lớn đa phương thức đủ nhanh và hiểu ngữ cảnh đủ sâu, có vẻ chúng sẽ hấp thụ hết các kỹ thuật hiện có
Với OCR cũng vậy, ngay cả khi chữ bị quét mờ, AI vẫn có thể suy luận ý nghĩa của tài liệu và nhận ra theo các mẫu như “mã đơn hàng thường nằm dưới ngày đặt hàng”
Nếu ASR cũng bắt đầu “đoán” dựa trên ngữ cảnh theo cách này, sẽ có nguy cơ làm sai lệch lời nói thực tế
- Việc này vừa có mặt tốt vừa có mặt xấu
  ASR tốt có thể hiểu được cả đoạn nói lẫn nhiều tạp âm mà tôi nghe không ra, nhưng đôi khi lại sửa quá tay và biến từ hiếm thành từ thông dụng
  Với OCR cũng có thể sinh ra dữ liệu sai nhưng trông hợp lý, như trong vụ Xerox
  Vì thế tôi chỉ dùng OCR cho mục đích tìm kiếm, và luôn giữ lại bản quét gốc
- Thực tế đã đang đi theo hướng đó rồi
  Các LLM đa phương thức như gpt-4o-transcribe vượt xa nhận dạng giọng nói đơn thuần
  Có thể đưa thuật ngữ chuyên môn hay sơ đồ tổ chức của công ty vào prompt, nên những câu như “bảo Kaitlyn review PR” cũng phân biệt đúng người
  Với công cụ mã nguồn mở cho Mac mà tôi làm, bạn có thể thử khóa API OpenAI và prompt tùy chỉnh
- Tôi không hiểu vì sao phải lo
  Công nghệ tiến bộ thì dù một số kỹ thuật biến mất, cuối cùng chẳng phải vẫn đi theo hướng tốt hơn sao?
- ASR là công nghệ đã chứng minh được tính hữu dụng
  Từ khi Whisper xuất hiện, số lượng mô hình nhận dạng giọng nói chạy cục bộ đã bùng nổ
  Ví dụ: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (giọng nói → văn bản) có lẽ sẽ còn có lợi thế hơn khi xử lý cục bộ trong một thời gian
  Nếu xử lý trực tiếp trên thiết bị có microphone, có thể giảm đáng kể băng thông và thậm chí không cần gửi lên đám mây
Khá tiếc là mô hình không có timestamp hay tách người nói (diarization)
Tôi tự hỏi liệu WhisperX có còn là lựa chọn tốt nhất cho mục đích đó không
- Ngay cả trong các API thương mại cũng gần như không có nơi nào hỗ trợ ổn định việc tách người nói và timestamp ở cấp độ từng từ
  Google Chirp có nhiều vấn đề như bỏ sót đoạn, hallucination, và timestamp lệch nhau
  AWS khá hơn một chút nhưng đồng bộ ở cấp độ từng từ vẫn thiếu ổn định
  Whisper cũng hay hallucination, còn các mô hình mới của OpenAI thì chính xác nhưng không hỗ trợ timestamp
  Cuối cùng vẫn có thể xử lý bằng hậu kỳ, nhưng tôi ước gì có một API có thể dùng mà không phải lo lắng
- WhisperX không phải là một mô hình mà là một gói phần mềm ghép Whisper với các mô hình khác
  Có lẽ sắp có cả phiên bản tích hợp cho Cohere Transcribe
- Tôi đề xuất Qwen-ASR
  Có ví dụ kèm timestamp ở cuối trang
- Mistral Voxtral hỗ trợ timestamp và tách người nói, và cho kết quả tốt với tiếng Đức
- Còn có whisper-timestamped
  Nó dùng trọng số cross-attention của Whisper để căn chỉnh bằng Dynamic Time Warping mà không cần mô hình bổ sung
Tôi rất hài lòng với dịch vụ của Cohere
Vài tháng trước tôi đã chuyển sang mô hình clip-style embedding, và trong số các dịch vụ bên ngoài tôi từng dùng, nó có độ trễ P50 ổn định nhất
- Tôi tò mò về chất lượng tổng thể
  Mô hình của Cohere thường khá nhỏ và hiệu năng cũng thấp hơn
Nhiều mô hình STT chỉ được huấn luyện trên giọng phát âm hoàn hảo, nên khá yếu với giọng nước ngoài
Là người nói tiếng Anh với giọng Pháp, tôi rất muốn thử mô hình này
Từ trước đến nay, thứ hoạt động tốt nhất trong ứng dụng học ngôn ngữ của tôi (Copycat Cafe) là Soniox, còn các mô hình dựa trên Whisper thì lại có xu hướng tạo ra câu hallucination
Tôi đã thử với bộ dữ liệu nội bộ của chúng tôi (250 mẫu đọc mã bưu chính Anh) và nó khá cạnh tranh
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics khoảng 54%
- Nghe nói trên compare-stt.com, Gladia đứng đầu trong bài test mù
- Để render bảng, chỉ cần chèn hai dòng trống giữa các dòng
- Không biết mốc của con người có phải là 248/248 không
Khá tiếc là mô hình này không hỗ trợ từ điển từ tùy chỉnh, word boosting, hay thêm prompt
Có lẽ đây lại là một mô hình ASR thiên về benchmark nữa
Tôi đăng các bản cắt từ stream Twitch lên YouTube và dùng Whisper-large-v3 để tạo phụ đề
Điều kiện của một ASR tốt là
1. hỗ trợ timestamp
2. nhận diện người nói đồng thời
3. chép lời chính xác
4. bao gồm cả biểu hiện phi ngôn ngữ như [ho], [cười]
5. có thể nhúng ngữ cảnh hơn 10.000 từ
  Với WhisperX, có thể chép lời trong 5 phút, nhưng vấn đề lớn nhất vẫn là bỏ sót câu
- Điểm 3 và 4 với phần lớn khách hàng có thể lại là tính năng không cần thiết
Nếu gọi là “mã nguồn mở”, tôi thắc mắc là có mã nguồn thật hay chỉ công bố trọng số mô hình
- Có thể tải file trên Hugging Face,
  và còn có bản chuyển đổi ONNX nên chạy được cả trên CPU
- Trong đa số trường hợp, “mã nguồn mở” có nghĩa là công bố trọng số
  Huấn luyện mô hình quá tốn kém, nên chỉ cần chia sẻ thành phẩm thôi cũng đã rất hữu ích rồi
- Có lẽ đó là cách diễn đạt để chỉ chính mô hình
Tôi muốn biết liệu mô hình này có phải là SOTA trong cùng cỡ hay không
Muốn biết nó có tốt hơn Parakeet không
- Nếu xem bảng xếp hạng ASR của Hugging Face,
  Parakeet (0.6B) tuy nhanh nhưng xét theo WER thì chỉ ở khoảng top 10
- Mô hình của Cohere có 2B tham số, lớn hơn Parakeet (0.6B, 1.1B), và trên benchmark cũng cho kết quả tốt hơn
Trước đây tôi từng dùng Dragon Dictate, nhưng mất nhiều thời gian để huấn luyện mà kết quả cũng không tốt
Gần đây tôi làm một buổi phỏng vấn podcast, và Apple Podcasts tự động tạo bản chép lời bằng AI
Lỗi không nhiều, nhưng điều bất tiện nhất là không phân biệt được người nói
- Hồi đó đã có phần mềm nhận dạng giọng nói chạy được cả trên 64MB RAM
  Hồi nhỏ tôi đã tải quá nhiều phần mềm shareware TTS/nhận dạng giọng nói kiểu đó

Cohere Transcribe - Mô hình nhận dạng giọng nói mã nguồn mở SOTA

Tổng quan về Cohere Transcribe

Kiến trúc mô hình

Hỗ trợ 14 ngôn ngữ

Hiệu năng mô hình

Kết quả đánh giá của con người

Tốc độ xử lý và hiệu quả

Đánh giá của Radical Ventures

Định hướng phát triển tiếp theo

Sử dụng và triển khai

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News