31 điểm bởi GN⁺ 2025-08-14 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Phiên bản FFmpeg 8.0 đã chính thức bổ sung tính năng hỗ trợ mô hình nhận dạng giọng nói Whisper
  • Whisper là mô hình nhận dạng giọng nói mã nguồn mở do OpenAI phát triển, được dùng để tự động chuyển đổi giọng nói ở nhiều ngôn ngữ
  • Việc đưa tính năng này vào giúp tăng khả năng tự động hóa quy trình chuyển giọng nói thành văn bản trực tiếp trong các tác vụ xử lý video và âm thanh
  • Khả năng ứng dụng và hiệu quả của FFmpeg được tăng cường đáng kể đối với các nhà phát triển và lĩnh vực tự động hóa media
  • Việc tích hợp sẵn tính năng nhận dạng giọng nói mới nhất giúp giảm gánh nặng phải dùng công cụ bên ngoài hoặc quy trình tích hợp phức tạp

Tổng quan về hỗ trợ Whisper trong FFmpeg 8.0

  • Phiên bản FFmpeg 8.0 bổ sung hỗ trợ mô hình nhận dạng giọng nói Whisper, qua đó cung cấp khả năng tự động chuyển dữ liệu giọng nói thành văn bản ở nhiều ngôn ngữ
  • Whisper sử dụng thuật toán dựa trên deep learning do OpenAI tạo ra, bảo đảm hiệu năng chuyển giọng nói thành văn bản với độ chính xác cao
  • Người dùng FFmpeg hiện tại có thể tạo phụ đề hoặc trích xuất nội dung lời nói từ tệp video và âm thanh thông qua tính năng hỗ trợ Whisper tích hợp sẵn, mà không cần qua công cụ bên ngoài

Những lợi ích chính của việc tích hợp Whisper

  • Nhờ tích hợp Whisper, các pipeline xử lý media và tự động hóa dựa trên FFmpeg có thể triển khai quy trình nhận dạng giọng nói hiệu quả và có khả năng mở rộng cao
  • Khi thuật toán nhận dạng giọng nói được tích hợp sẵn, nhà phát triển có thể nhận được kết quả chuyển giọng nói thành văn bản chỉ với lệnh đơn giản mà không phải gánh thêm công việc tích hợp phức tạp hay viết script riêng

Ý nghĩa công nghiệp của tổ hợp FFmpeg và Whisper

  • Trong nhiều lĩnh vực như quản lý khối lượng lớn tài sản media, tạo phụ đề, lưu trữ dữ liệu video, tổ hợp FFmpeg + Whisper có ưu thế hiện thực hóa đồng thời hiệu quả chi phí và tự động hóa
  • Trước đây cần tích hợp các công cụ nhận dạng giọng nói mã nguồn mở riêng với FFmpeg, nhưng giờ đây có thể xử lý trực tiếp trong chính FFmpeg, nhờ đó đơn giản hóa workflow và kỳ vọng cải thiện tốc độ xử lý

Chi tiết kỹ thuật

  • FFmpeg đã bổ sung bộ lọc âm thanh thực hiện nhận dạng giọng nói tự động (ASR) ngay bên trong FFmpeg, dựa trên thư viện Whisper.cpp
  • Có thể kích hoạt bằng tùy chọn --enable-whisper, và bắt buộc phải chỉ định đường dẫn mô hình (model)
  • Các tùy chọn chính: thiết lập ngôn ngữ (language), có dùng GPU hay không (use_gpu), kích thước hàng đợi (queue), định dạng đầu ra (format: text/srt/json), thiết lập mô hình và ngưỡng VAD (phát hiện hoạt động giọng nói), v.v.
    • Nếu giá trị queue nhỏ thì tính thời gian thực cao hơn nhưng độ chính xác giảm và tải CPU tăng; nếu lớn thì độ chính xác cao hơn nhưng độ trễ tăng
    • Có thể lưu kết quả vào tệp đầu ra, URL hoặc metadata bằng tùy chọn destination, đồng thời hỗ trợ giao thức AVIO
  • Bao gồm các kịch bản ví dụ như tạo phụ đề SRT, gửi HTTP ở định dạng JSON, phiên âm thời gian thực từ đầu vào micro (dùng VAD)
    • Ví dụ tạo tệp phụ đề SRT
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

Chưa có bình luận nào.

Chưa có bình luận nào.