1 điểm bởi GN⁺ 2024-06-28 | 1 bình luận | Chia sẻ qua WhatsApp

Demo bot giọng nói nhanh nhất thế giới

Giới thiệu demo

  • Tầm quan trọng của tốc độ: Trong giao diện AI giọng nói, tốc độ là yếu tố rất quan trọng. Mọi người kỳ vọng phản hồi nhanh trong các cuộc trò chuyện thông thường.
  • Mục tiêu: Demo này cho thấy tương tác LLM độ trễ thấp với mục tiêu thời gian phản hồi bằng giọng nói dưới 500ms.
  • Công nghệ: Bot này được xây dựng bằng Pipecat, một framework mã nguồn mở.

Trải nghiệm demo

  • Dùng thử demo: Có thể trực tiếp trải nghiệm demo.
  • Xem mã nguồn: Có thể xem mã nguồn.
  • Tự triển khai: Cung cấp tùy chọn triển khai trong môi trường của riêng bạn.

Ý kiến của GN⁺

  • Tầm quan trọng của tốc độ: Phản hồi nhanh trong giao diện giọng nói cải thiện đáng kể trải nghiệm người dùng.
  • Ưu điểm của mã nguồn mở: Các framework mã nguồn mở như Pipecat rất hữu ích vì giúp nhà phát triển dễ tiếp cận và chỉnh sửa.
  • Các điểm cần cân nhắc khi áp dụng công nghệ: Khi đưa công nghệ mới vào sử dụng, cần cân nhắc khả năng tương thích với hệ thống hiện có, chi phí bảo trì, v.v.
  • Các dự án tương tự: Cũng có các giải pháp AI giọng nói khác như Dialogflow của Google hay Lex của Amazon.

1 bình luận

 
GN⁺ 2024-06-28
Ý kiến trên Hacker News
  • Tốc độ: Trong AI dịch vụ khách hàng, thời gian phản hồi đã được rút xuống còn vài giây. Tốc độ thắng tất cả.
  • Suy luận giọng nói: Đã triển khai Websocket Faster Whisper trước khi OpenAI ra mắt gpt4o. Dùng push-to-talk do vấn đề độ tin cậy của VAD.
  • VAD đa nền tảng: Giới thiệu mô-đun VAD trên trình duyệt đa nền tảng được port mạng VAD của Silero sang ONNX. Hoạt động cả trên Firefox.
  • TTS trên trình duyệt: Công cụ chuyển văn bản thành giọng nói trên trình duyệt ngày càng nhanh hơn và chất lượng tốt hơn. GPT-4o hợp nhất mô hình nhận dạng giọng nói tự động, hiểu và tạo phản hồi thành một để có độ trễ thấp.
  • Tiềm năng ứng dụng: Có vẻ là ứng dụng teaser của Cerebrium. Khi thử trên iPad, độ trễ dao động từ 1400ms đến 400ms.
  • Trải nghiệm hội thoại: Phản hồi nhanh làm cho trải nghiệm hội thoại tốt hơn. Duy trì ngữ cảnh ngắn để đạt thời gian phản hồi ngắn.
  • Whisper-dictation: Dùng Whisper-dictation cùng với llama-70b. Có thể nói xong trong lúc trang web đang tải.
  • Hội thoại tự nhiên: Việc tinh chỉnh VAD và ngắt lời rất tự nhiên. Đây là trải nghiệm hội thoại tự nhiên nhất.
  • Chia sẻ: Khuyến khích những người khác chia sẻ giải pháp. Dự định cuối tuần sẽ xem qua nhiều cách triển khai khác nhau.
  • Marketing và toán học: Chỉ ra rằng marketing nói là 500, nhưng về mặt toán học thì là 759.
  • Giao diện nhanh: Giao diện rất nhanh và gần như không thể phân biệt với con người. Khen ngợi Cerebrium.ai.