1 điểm bởi GN⁺ 2024-03-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Các nâng cấp chính của Opus 1.5

  • Phiên bản Opus 1.5 đã được công bố, mang đến nhiều nâng cấp khác nhau, bao gồm các cải thiện chất lượng dựa trên machine learning.
  • Hoàn toàn tương thích với các phiên bản trước, đồng thời giới thiệu các tính năng mới giúp nâng cao trải nghiệm âm thanh.
  • Lần đầu tiên sử dụng kỹ thuật deep learning trong xử lý và tạo tín hiệu thông qua machine learning.

Xử lý mất gói

  • Mất gói là một trong những bất tiện lớn nhất trong các cuộc gọi; nếu gói tin không được truyền tới, thì dù codec có chất lượng cao đến đâu cũng trở nên vô nghĩa.
  • Packet loss concealment (PLC) có vai trò lấp đầy âm thanh thay cho các gói bị thiếu, và machine learning giúp ích rất nhiều ở đây.
  • PLC được thực hiện bằng mạng nơ-ron sâu (DNN), điều này có thể được xác nhận trong bài báo và các chi tiết kỹ thuật.

Redundancy sâu (DRED)

  • Khi các gói bị mất liên tiếp, chỉ dùng PLC sẽ có giới hạn, và điều này được giải quyết thông qua redundancy.
  • Opus có cơ chế low bitrate redundancy (LBRR), nhưng giới thiệu DRED để nén giọng nói hiệu quả bằng ML.
  • DRED có thể truyền 1 giây redundancy với phần overhead khoảng 12-32 kb/s.

Neural vocoder

  • Độ phức tạp thấp của DRED và PLC trở nên khả thi nhờ công nghệ neural vocoder mới.
  • Vocoder FARGAN chỉ có độ phức tạp bằng 1/5 LPCNet và sử dụng dưới 1% lõi CPU ngay cả trên laptop hoặc điện thoại hiện đại.

Cải thiện chất lượng giọng nói ở bitrate thấp

  • Khi không có đủ bitrate, có thể nghe thấy các coding artifact, và hai phương pháp cải thiện là LACE và NoLACE đã được giới thiệu.
  • LACE tương tự post-filter truyền thống, nhưng DNN tối ưu các hệ số post-filter dựa trên mọi dữ liệu mà bộ giải mã có thể sử dụng.
  • NoLACE cần nhiều tính toán hơn, nhưng mạnh hơn nhờ xử lý tín hiệu phi tuyến bổ sung.

Tích hợp WebRTC

  • DRED đòi hỏi tích hợp chặt chẽ với jitter buffer, và kích thước của jitter buffer quyết định lượng trễ đến tối đa của gói được cho phép.
  • Dữ liệu DRED được xử lý tương tự như các gói âm thanh đến muộn, và khi điều kiện mạng được cải thiện, kích thước bộ đệm có thể giảm xuống.

IETF và tiêu chuẩn hóa

  • Công việc này đang được tiến hành trong nhóm làm việc IETF mlcodec, tập trung vào cơ chế mở rộng chung của Opus, redundancy sâu và các cải tiến mã hóa giọng nói.
  • Cơ chế DRED cho phép đưa thêm thông tin vào gói Opus mà các bộ giải mã phiên bản cũ vẫn có thể giải mã dữ liệu Opus thông thường.

Các cải tiến khác

  • Opus bổ sung hỗ trợ AVX2 và phát hiện thời gian thực, giúp mã DNN mới và bộ mã hóa SILK nhanh hơn.
  • Tối ưu hóa ARMv7 Neon được kích hoạt lại trên AArch64, giúp việc mã hóa hiệu quả hơn.
  • Để mô phỏng mất gói thực tế hơn, có thể tạo mô hình mất gói nhằm mô phỏng các dạng mất mát tương tự ngoài đời thực.

Ý kiến của GN⁺

  • Opus 1.5 đưa ra một cách tiếp cận đổi mới khi cải thiện công nghệ audio codec hiện có bằng machine learning. Đây có thể là một bước tiến quan trọng cho sự phát triển của công nghệ truyền thông.
  • Vấn đề mất gói là một bài toán quan trọng trong truyền thông thời gian thực, và công nghệ của Opus 1.5 mang đến một phương pháp hiệu quả để giải quyết. Đặc biệt, các tính năng như DRED có thể hữu ích trong môi trường có độ ổn định mạng thấp.
  • Các công nghệ như neural vocoder đóng vai trò quan trọng trong việc nâng cao chất lượng giọng nói, nhưng xét đến độ phức tạp và yêu cầu hiệu năng của chúng, vẫn cần thảo luận liệu mọi người dùng có thể hưởng lợi hay không.
  • Công nghệ của Opus 1.5 có thể phát huy giá trị rõ rệt khi được tích hợp vào các nền tảng truyền thông thời gian thực như WebRTC, từ đó cải thiện đáng kể chất lượng làm việc từ xa và giao tiếp trực tuyến.
  • Quá trình tiêu chuẩn hóa đóng vai trò quan trọng để các công nghệ này được chấp nhận rộng rãi và duy trì tính tương thích, và nỗ lực của IETF sẽ góp phần giúp công nghệ này được sử dụng trong phạm vi ứng dụng và dịch vụ rộng hơn.

Chưa có bình luận nào.

Chưa có bình luận nào.