2 điểm bởi GN⁺ 2024-09-20 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình tương tác giọng nói end-to-end chất lượng cao với độ trễ thấp
  • Được xây dựng dựa trên Llama-3.1-8B-Instruct, hướng tới đạt được khả năng giọng nói ở mức GPT-4o
  • Độ trễ thấp 226ms
  • Tạo đồng thời phản hồi văn bản và giọng nói

Tóm tắt của GN⁺

  • LLaMA-Omni là mô hình ngôn ngữ-giọng nói dựa trên Llama-3.1-8B-Instruct, hỗ trợ tương tác giọng nói chất lượng cao với độ trễ thấp
  • Có thể tạo đồng thời phản hồi văn bản và giọng nói, nên hữu ích trong nhiều lĩnh vực ứng dụng khác nhau
  • Việc huấn luyện hoàn tất trong vòng 3 ngày với 4 GPU, cho thấy hiệu quả cao
  • Có thể dễ dàng tương tác thông qua bản demo Gradio và cũng hỗ trợ suy luận cục bộ
  • Các dự án có chức năng tương tự gồm có Whisper của OpenAI và Speech-to-Text API của Google

1 bình luận

 
GN⁺ 2024-09-20
Ý kiến trên Hacker News
  • Câu hỏi về việc liệu có thể phát ra những âm thanh không thể biểu đạt bằng văn bản hay không
  • Hoài nghi về ưu điểm hoặc tiềm năng của mô hình này so với mô hình thuần văn bản
    • Kỳ vọng rằng khi mô hình phát triển hơn, nó có thể diễn giải hoặc tạo ra đúng ngữ điệu, nhịp điệu và cảm xúc vốn bị mất đi trong TTS
  • Câu hỏi liệu đây có phải chỉ là STT -> LLM -> TTS hay không
    • Thắc mắc rằng nếu nhập tiếng Chewbacca, mô hình sẽ nhận đó là âm thanh vô nghĩa hay sẽ diễn giải thành các từ ngẫu nhiên bằng một hệ thống STT vụng về
  • Câu hỏi liệu các công cụ vận hành mô hình như Ollama, LM Studio, llama.cpp có hỗ trợ điều này hay không
  • Giọng TTS trong clip demo rất giống với diễn viên lồng tiếng của Valve là Ellen McLain
  • Tốc độ rất tốt
    • Gần đây đã thiết lập LMStudio + AnythingLLM để thử trò chuyện giọng nói cục bộ nhưng vẫn chậm hơn mong muốn
    • Giọng PiperTTS nghe hay hơn
  • Có vẻ tinh chỉnh giọng nói là một yêu cầu quan trọng cho mục đích sử dụng thương mại
    • Ước gì có mã huấn luyện hoặc fine-tuning
  • Thắc mắc liệu không thể fine-tuning bổ sung hay không
  • Câu hỏi liệu có demo nào cho thấy hiệu năng hay không
  • Thắc mắc liệu có cảm thấy độ tin cậy giảm đi khi kho GitHub có biểu đồ lịch sử số sao hay không