- Mô hình tương tác giọng nói end-to-end chất lượng cao với độ trễ thấp
- Được xây dựng dựa trên Llama-3.1-8B-Instruct, hướng tới đạt được khả năng giọng nói ở mức GPT-4o
- Độ trễ thấp 226ms
- Tạo đồng thời phản hồi văn bản và giọng nói
Tóm tắt của GN⁺
- LLaMA-Omni là mô hình ngôn ngữ-giọng nói dựa trên Llama-3.1-8B-Instruct, hỗ trợ tương tác giọng nói chất lượng cao với độ trễ thấp
- Có thể tạo đồng thời phản hồi văn bản và giọng nói, nên hữu ích trong nhiều lĩnh vực ứng dụng khác nhau
- Việc huấn luyện hoàn tất trong vòng 3 ngày với 4 GPU, cho thấy hiệu quả cao
- Có thể dễ dàng tương tác thông qua bản demo Gradio và cũng hỗ trợ suy luận cục bộ
- Các dự án có chức năng tương tự gồm có Whisper của OpenAI và Speech-to-Text API của Google
1 bình luận
Ý kiến trên Hacker News
STT -> LLM -> TTShay không