- Mô hình dịch giọng nói sang giọng nói (Speech-to-Speech Translation) truyền phát thời gian thực với độ trung thực cao (High Fidelity)
- Khác với dịch ngoại tuyến thông thường, mô hình này "tạo ra giọng nói đã được dịch theo thời gian thực" trong lúc người dùng đang nói
- Cũng cung cấp dịch văn bản, đồng thời bao gồm tính năng chuyển đổi giọng nói giúp giữ nguyên phong cách của giọng nói gốc
Kiến trúc
- Là một "mô hình chỉ dùng decoder", được thiết kế cho dịch giọng nói đồng thời
- Tận dụng kiến trúc đa luồng (multistream) của Moshi để mô hình hóa đồng thời giọng nói gốc và giọng nói đã dịch
- Tạo ra luồng đầu ra liên tục với tốc độ khung hình cố định 12.5Hz mỗi giây, đồng thời cung cấp bản dịch văn bản có kèm dấu thời gian
Phương pháp huấn luyện
- Cần dữ liệu đã được căn chỉnh giữa giọng nói và văn bản của bản gốc lẫn bản dịch, nhưng trên thực tế loại dữ liệu này không nhiều
- Vì vậy, mô hình được huấn luyện bằng cách tạo dữ liệu tổng hợp (synthetic data)
- Sử dụng hệ thống dịch máy MADLAD để căn chỉnh yếu có giám sát giữa văn bản gốc và văn bản dịch
- Áp dụng quy tắc căn chỉnh để từ chỉ xuất hiện tại thời điểm mà bản dịch có thể được dự đoán từ bản gốc
- Cách 1: chèn khoảng lặng (silence insertion)
- Cách 2: tổng hợp giọng nói có nhận biết căn chỉnh (alignment-aware TTS)
Suy luận (Inference)
- Hibiki mã hóa giọng nói gốc theo thời gian thực và tạo ra giọng nói đã dịch
- Không cần phương thức suy luận phức tạp, mô hình sử dụng temperature sampling nên tương thích với xử lý theo lô
- Có thể điều chỉnh mức độ tương đồng giọng nói bằng hệ số Classifier-Free Guidance
- Hệ số càng cao thì giọng tạo ra càng giống bản gốc, nhưng nếu quá cao thì chất lượng dịch có thể giảm
- Hiện tại Hibiki chỉ hỗ trợ dịch từ tiếng Pháp sang tiếng Anh
- Mô hình nhẹ Hibiki-M có thể chạy cả trên smartphone
Cách chạy mô hình
- Có thể chạy trên PyTorch, Rust, MLX(macOS), MLX-Swift(iOS)
- Mã của Hibiki gần như giống hệt dự án Moshi, và phần triển khai thực tế có thể xem tại kho kyutai-labs/moshi
- Hiện chỉ cung cấp hai mô hình hỗ trợ dịch tiếng Pháp → tiếng Anh (FR → EN)
- Hibiki 2B: kiến trúc Transformer sâu hơn, 16 RVQ cho mỗi luồng
- Hibiki 1B: phiên bản nhẹ, 8 RVQ cho mỗi luồng, có thể chạy on-device
2 bình luận
Bản triển khai Rust có vẻ dùng candle. (Cargo.toml)
Có vẻ việc dịch thời gian thực sẽ hơi khó với những ngôn ngữ có trật tự từ hoàn toàn khác nhau, chắc phải đọc thử bài báo mới được.