WhisperFusion - Trò chuyện với chatbot AI với độ trễ ngắn

xguru · 2024-01-31T10:03:01+09:00

Cung cấp trải nghiệm trò chuyện mượt mà với AI bằng cách kết nối với Mistral LLM dựa trên các tính năng của WhisperLive và WhisperSpeech WhisperLive: hiện thực hóa OpenAI Whisper để hoạt động gần như theo thời gian thực, chuyển giọng nói thành văn bản WhisperSpeech: hệ thống TTS được xây dựng bằng cách đảo ngược Whisper Cả LLM và Whisper đều được tối ưu để chạy hiệu quả bằng engine TensorRT, qua đó tối đa hóa hiệu năng và khả năng xử lý thời gian thực, còn WhisperSpeech được tối ưu bằng torch.compile

(github.com/collabora)

11 điểm bởi xguru 2024-01-31 | 3 bình luận | Chia sẻ qua WhatsApp

Cung cấp trải nghiệm trò chuyện mượt mà với AI bằng cách kết nối với Mistral LLM dựa trên các tính năng của WhisperLive và WhisperSpeech
- WhisperLive: hiện thực hóa OpenAI Whisper để hoạt động gần như theo thời gian thực, chuyển giọng nói thành văn bản
- WhisperSpeech: hệ thống TTS được xây dựng bằng cách đảo ngược Whisper
Cả LLM và Whisper đều được tối ưu để chạy hiệu quả bằng engine TensorRT, qua đó tối đa hóa hiệu năng và khả năng xử lý thời gian thực, còn WhisperSpeech được tối ưu bằng torch.compile

3 bình luận

kleinstein 2024-02-02

Nếu có thể dịch theo thời gian thực thì sẽ rất nhanh và tuyệt.

xguru 2024-01-31

WhisperSpeech – Hệ thống tổng hợp giọng nói mã nguồn mở được xây dựng ngược từ Whisper

xguru 2024-01-31

Ý kiến trên Hacker News

Hai tính năng cần thiết để kịch bản hội thoại hoạt động tốt:
- Khả năng ngắt lời: LLM phải có thể tạm dừng khi người dùng nói "khoan đã".
- Phản hồi theo tín hiệu cụ thể: Phải chờ những tín hiệu cụ thể như "bạn nghĩ sao?" từ người dùng rồi mới phản hồi.
- Ngoài hai tính năng này, độ trễ thấp là rất quan trọng để cuộc trò chuyện mang lại cảm giác như đang nói chuyện với một người khác.
Bày tỏ sự quan tâm đến các dự án như WhisperFusion, WhisperLive và WhisperSpeech, đồng thời muốn biết về độ trễ của từng hệ thống và chỉ số WER (Word Error Rate) của WhisperLive. Cũng nhắc rằng dường như đang thiếu những thông tin quan trọng về các mô hình này.
Chỉ ra rằng dự án rất tuyệt nhưng chủ yếu là vấn đề đóng gói:
- Chỉ trích việc nhiều ứng dụng Python đang tự triển khai một nửa chức năng của setuptools theo cách chậm chạp và nhiều lỗi.
- Đặt câu hỏi về việc TensorRT phát hành chức năng cốt lõi trong thư mục "example".
- Với huggingface_cli, cho rằng đã có sẵn cách tải thứ gì đó bằng tên (như chỉ mục PyPi), và có lẽ nên áp dụng cách đó cho mô hình thì tốt hơn.
Nhớ lại cuộc thảo luận về dự án Vocode, nói rằng đã có bàn luận về nó 10 tháng trước và bản demo khi dùng thử khá ấn tượng. Tò mò không biết hiện có ai đang dùng nó trong môi trường phát triển hay sản xuất không.
Một người dùng hình dung việc đưa công nghệ này vào một ứng dụng chuyên dụng để nhận diện nội dung và văn bản trên màn hình, rồi hỗ trợ gần như theo thời gian thực.
Thắc mắc về cách sử dụng Whisper hiệu quả cho streaming transcription, đồng thời giới thiệu một dự án có mục tiêu tương tự.
Yêu cầu tóm tắt phần LLM khác hoặc giống thế nào so với thiết lập TGWUI+llama.cpp. Đặc biệt đặt câu hỏi vì sao "siêu độ trễ thấp" lại không đạt được trên phần cứng của người dùng.
Người dùng hỏi liệu dự án có chạy hoàn toàn cục bộ hay không, hay cần quyền truy cập API tới hệ thống từ xa của OpenAI. Người này đang dùng OpenAI để xây dựng TTS và STT, nhưng không muốn liên tục gửi luồng âm thanh tới OpenAI chỉ để chờ một lệnh đơn lẻ.
Cho rằng đây là thứ mà Siri và Alexa lẽ ra phải trở thành, và dự đoán vài năm tới sẽ xuất hiện nhiều công nghệ như vậy hơn. Nếu chạy cục bộ và không để lại bản ghi lâu dài, thì vấn đề nghe nền liên tục cũng sẽ được giải quyết.
Nhắc rằng dự án dùng TensorRT, và muốn biết GPU nào được hỗ trợ cũng như liệu có thể chạy trên Jetson hay không.

WhisperFusion - Trò chuyện với chatbot AI với độ trễ ngắn

Bài viết liên quan

3 bình luận

Ý kiến trên Hacker News