2 điểm bởi somang04 12 ngày trước | 5 bình luận | Chia sẻ qua WhatsApp

Mình đã thử cả Whisper của OpenAI lẫn Clova của NCP, nhưng có vẻ việc phân biệt nhiều người nói trong tiếng Hàn khó hơn mình nghĩ khá nhiều.
Liệu có mô hình local hoặc cloud, thương mại nào mà mọi người từng dùng và có thể đề xuất không?

Quy trình dự kiến là

  1. Thu thập nội dung > tách âm thanh (Music, Effect, Voice) > phân tích dạng sóng âm thanh > tách nhiều người nói trong âm thanh > thực hiện STT theo từng người nói > tạo bản thảo dựa trên thông tin timecode theo thứ tự này.

Tùy theo kết quả đầu ra, có vẻ còn có thể mở rộng sang lồng tiếng/chế tác phụ đề.

Các tiêu chí mình đang xem là như sau.

  • Kết quả đầu ra của phần tách âm thanh như thế nào?
  • Có thể nhận diện và phân biệt giọng của cùng một người dựa trên âm thanh hay không?

Rất mong nhận được nhiều ý kiến đóng góp!

5 bình luận

 

Theo những gì tôi đã thử gần đây, với bài toán nhiều người nói thì Clova làm khá tốt.
Nếu chất lượng ở mức vừa phải thì Return Zero như được gợi ý ở trên cũng ổn.
Ngay cả khi chất lượng STT hơi kém, nếu chuyển kết quả sang một LLM mạnh thì vẫn có thể cho ra kết quả tương đối đáng hài lòng.

Trong trường hợp của tôi, việc nhận diện người nói không quá quan trọng nên tôi chọn Gemini.
Vì mỗi giải pháp đều có ưu và nhược điểm riêng, nên cuối cùng tôi khuyên bạn hãy lấy mẫu một vài bộ dữ liệu mà bạn muốn xử lý rồi chọn phương án phù hợp.

 

Có mô hình nào phân biệt người nói đa thoại tiếng Hàn tốt không??

https://developers.rtzr.ai/docs/stt-file/diarization/
Không thể chỉ dùng riêng tính năng phân biệt đa người nói, nhưng API được cung cấp khi kết hợp cùng STT. (OpenAI hay Clova cũng tương tự)

 

Mình thấy Daglo phân biệt người nói khá tốt.

 

Ồ! Vậy à?! Đây là một nền tảng phải không? Tôi đang tìm một dạng hoạt động dựa trên local LLM hoặc API!

 

Vâng, tiếc là Daglo hiện không cung cấp local LLM!
Có vẻ họ cũng cung cấp API, dù là trả phí. (https://developers.daglo.ai/guide/)