Omni SenseVoice - Nhận dạng giọng nói tốc độ cao với dấu thời gian theo từng từ

xguru · 2024-11-10T09:31:01+09:00

Dựa trên SenseVoice, mô hình hiểu giọng nói đa ngôn ngữ có các tính năng như nhận dạng giọng nói tự động (ASR), nhận diện ngôn ngữ giọng nói (LID), nhận diện cảm xúc giọng nói (SER) và phát hiện sự kiện âm thanh (AED) Được tối ưu cho suy luận siêu nhanh và dấu thời gian chính xác, giúp xử lý phiên âm âm thanh thông minh và nhanh hơn Các tùy chọn chính --language: tự động phát hiện/chỉ định ngôn ngữ (auto, zh, en, yue, ja, ko) --textnorm: chọn có áp dụng chuẩn hóa văn bản nghịch hay không (với trường hợp đã chuẩn hóa nghịch là withitn, văn bản gốc là woitn) --device-id: chạy trên GPU cụ thể (mặc định: -1 đối với CPU) --quantize: sử dụng mô hình đã lượng tử hóa để xử lý nhanh hơn

(github.com/lifeiteng)

13 điểm bởi xguru 2024-11-10 | 1 bình luận | Chia sẻ qua WhatsApp

Dựa trên SenseVoice, mô hình hiểu giọng nói đa ngôn ngữ có các tính năng như nhận dạng giọng nói tự động (ASR), nhận diện ngôn ngữ giọng nói (LID), nhận diện cảm xúc giọng nói (SER) và phát hiện sự kiện âm thanh (AED)
Được tối ưu cho suy luận siêu nhanh và dấu thời gian chính xác, giúp xử lý phiên âm âm thanh thông minh và nhanh hơn
Các tùy chọn chính
- --language: tự động phát hiện/chỉ định ngôn ngữ (auto, zh, en, yue, ja, ko)
- --textnorm: chọn có áp dụng chuẩn hóa văn bản nghịch hay không (với trường hợp đã chuẩn hóa nghịch là withitn, văn bản gốc là woitn)
- --device-id: chạy trên GPU cụ thể (mặc định: -1 đối với CPU)
- --quantize: sử dụng mô hình đã lượng tử hóa để xử lý nhanh hơn

1 bình luận

yangeok 2024-11-12

Có tiếng Hàn trong tùy chọn nên mình cũng muốn thử xem sao haha

Omni SenseVoice - Nhận dạng giọng nói tốc độ cao với dấu thời gian theo từng từ

Bài viết liên quan

1 bình luận