WhisperX - ASR dựa trên Whisper với độ chính xác dấu thời gian được cải thiện
(github.com/m-bain)- OpenAI Whisper tạo ra bản chép lời rất chính xác, nhưng dấu thời gian không ở cấp độ từng từ mà ở cấp độ phát ngôn (utterance), nên có thể sai lệch vài giây
- Cải thiện dấu thời gian của mô hình Whisper bằng cách sử dụng ASR dựa trên âm vị (phoneme-based) như Wav2vec2.0 và căn chỉnh cưỡng bức (forced alignment)
- Các ngôn ngữ mặc định được cung cấp là {en, fr, de, es, it, ja, zh, nl}. Với các ngôn ngữ bổ sung, cần tìm trên Huggingface Model Hub và tự kiểm thử
Chưa có bình luận nào.