14 điểm bởi spilist2 2023-08-23 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

(Có vẻ phù hợp hơn với SHOW, nhưng vì đây không phải sản phẩm do tôi làm nên tôi đăng ở NEWS thay vì SHOW.)

====

Đây là một kho lưu trữ đo tỷ lệ lỗi của nhiều bộ dữ liệu kiểm thử do AI-Hub công bố, theo từng API nhận dạng giọng nói, thông qua API của các trang dành cho nhà phát triển có thể dùng thử nhận dạng giọng nói tiếng Hàn. Kho lưu trữ này đề cập đến các nội dung sau.

  • Đo tỷ lệ lỗi ký tự (Character Error Rate) trên các bộ kiểm thử AI Hub bằng nhiều API nhận dạng giọng nói khác nhau như Return Zero, Google, OpenAI Whisper, ETRI, Naver
  • Giới thiệu về phương pháp đánh giá nhận dạng giọng nói tiếng Hàn

====

Dự án này được công khai nhằm đánh giá khách quan hiệu năng của nhiều API nhận dạng giọng nói khác nhau. Mục tiêu là phân tích sự khác biệt về hiệu năng giữa các dịch vụ nhận dạng giọng nói hiện có trên thị trường, từ đó mang lại khả năng tiếp cận tốt hơn cho người dùng và nhà phát triển.

Các tài liệu được công bố dưới dạng bài báo thường chỉ đánh giá hiệu năng với tiếng Anh và công bố WER (Word Error Rate) trên paperswithcode. Tuy nhiên, với nhận dạng giọng nói tiếng Hàn thì việc đánh giá bằng CER (Character Error Rate) thay vì WER mới là phù hợp, nhưng lại không dễ tìm được một bảng xếp hạng được tổng hợp bài bản.

KsponSpeech được công bố lần đầu vào năm 2018, nhưng vì AI-Hub chỉ cho người Hàn Quốc trong nước truy cập và số lượng người Hàn nghiên cứu, phát triển về nhận dạng giọng nói không nhiều, nên nó chưa được phổ biến rộng rãi thành nhiều tài nguyên khác nhau.

Return Zero vừa tự nghiên cứu và phát triển công nghệ nhận dạng giọng nói, vừa đóng góp để nhiều người có thể tiếp cận các tài nguyên này hơn: đưa KsponSpeech vào speechbrain, một công cụ được dùng nhiều trong lĩnh vực nhận dạng giọng nói, để hiện nay có thể sử dụng trong recipe mới nhất, đồng thời cũng giúp có thể truy cập trên huggingface.

Gần đây, nhiều loại dữ liệu giọng nói đa dạng đã được công bố trên AI-Hub, và chúng tôi cho rằng việc đánh giá xem các công cụ nhận dạng giọng nói tiếng Hàn đã tiến tới đâu trên những bộ dữ liệu đa dạng này, rồi phổ biến kết quả đó, sẽ góp phần thúc đẩy sự phát triển của nhận dạng giọng nói tiếng Hàn.

Chưa có bình luận nào.

Chưa có bình luận nào.