- Phát hiện lượt nói là một trong những chức năng quan trọng nhất trong ngăn xếp AI giọng nói, là công nghệ xác định thời điểm tác nhân giọng nói cần phản hồi khi con người đang nói
- Phần lớn tác nhân giọng nói dựa trên VAD (Voice Activity Detection) để phân chia âm thanh thành các đoạn có tiếng nói và không có tiếng nói, nên không phản ánh ý nghĩa âm học hay ngôn ngữ
- Con người thực hiện phát hiện lượt nói thông qua các tín hiệu phức tạp như ngữ pháp, ngữ điệu, tốc độ nói
- Mục tiêu: xây dựng mô hình gần với kỳ vọng của con người hơn so với cách tiếp cận dựa trên VAD
- Dự án phát triển mô hình phát hiện lượt nói âm thanh mã nguồn mở theo định hướng cộng đồng
- Giấy phép BSD 2-clause → bất kỳ ai cũng có thể sử dụng, fork và đóng góp
- Dự án bắt đầu từ hệ sinh thái Pipecat
- Pipecat: framework AI giọng nói và đa phương thức mã nguồn mở, độc lập với nhà cung cấp
- Mục tiêu của dự án
- Mục tiêu cấp cao
- Bất kỳ ai cũng có thể dễ dàng sử dụng
- Dễ dàng triển khai trong môi trường production
- Có thể dễ dàng fine-tune theo ứng dụng cụ thể
- Giới hạn của mô hình hiện tại
- Chỉ hỗ trợ tiếng Anh
- Tốc độ suy luận tương đối chậm: khoảng 150ms trên GPU, khoảng 1500ms trên CPU
- Dữ liệu huấn luyện chủ yếu tập trung vào lời nói chưa hoàn chỉnh (filler words) xuất hiện ở cuối đoạn
- Mục tiêu trung hạn
- Hỗ trợ nhiều ngôn ngữ
- Thời gian suy luận: dưới 50ms trên GPU, dưới 500ms trên CPU
- Phản ánh dữ liệu huấn luyện về sắc thái giọng nói rộng hơn
- Xây dựng pipeline tạo dữ liệu tổng hợp hoàn chỉnh
- Hỗ trợ conditioning dựa trên văn bản (ví dụ: nhập thẻ tín dụng, số điện thoại, địa chỉ, v.v.)
- Kiến trúc mô hình
- Dựa trên backbone Wav2Vec2-BERT của Meta AI (số lượng tham số: 580M)
- Sử dụng dữ liệu âm thanh học không giám sát 4,5 triệu giờ của 143 ngôn ngữ
- Cấu trúc mô hình hiện tại:
- Wav2Vec2-BERT → bộ phân loại 2 lớp (classification head)
- Sử dụng
Wav2Vec2BertForSequenceClassification của Hugging Face
- Kiến trúc đang được thử nghiệm:
- Đang kiểm tra liệu bộ phân loại đơn giản có còn hiệu quả khi mở rộng tập dữ liệu hay không
- Đang xem xét khả năng đưa vào cấu trúc phức tạp hơn
1 bình luận
Ý kiến Hacker News
Tôi đã dùng thử pipecat và thấy khá tốt. Nhưng rồi đã chuyển sang sherpa-onnx vì nó có thể biên dịch native và chạy trên thiết bị edge
Hôm nay có một vài cập nhật thú vị
Tôi đã tìm được hầu hết câu trả lời trong README. Viết rất tốt
Tôi muốn biết liệu có thể chia sẻ lượng tài nguyên và khối lượng cần thiết để fine-tune Wav2Vec2-BERT hay không
Tôi thắc mắc turn detection là gì
Tôi rất vui khi thấy công nghệ này tiếp tục phát triển
Với tư cách là người được chẩn đoán mắc chứng tự kỷ mức độ cao, tôi muốn áp dụng công nghệ này vào earpiece
Sau khi xem qua một vài mô hình dựa trên lượt nói, tôi thấy cách triển khai rất đồng nhất. Rất mong chờ công nghệ này sẽ phát triển ra sao
Tôi hy vọng Vedal sẽ tích hợp công nghệ này vào mô hình của Neuro-sama. Một trường hợp đã biến từ bot osu thành AI Vtuber
Tôi thắc mắc liệu nó có hỗ trợ nhiều người nói hay không
Đang fork