Smart-turn - Mô hình phát hiện lượt nói âm thanh mã nguồn mở

(github.com/pipecat-ai)

8 điểm bởi GN⁺ 2025-03-10 | 1 bình luận | Chia sẻ qua WhatsApp

Phát hiện lượt nói là một trong những chức năng quan trọng nhất trong ngăn xếp AI giọng nói, là công nghệ xác định thời điểm tác nhân giọng nói cần phản hồi khi con người đang nói
Phần lớn tác nhân giọng nói dựa trên VAD (Voice Activity Detection) để phân chia âm thanh thành các đoạn có tiếng nói và không có tiếng nói, nên không phản ánh ý nghĩa âm học hay ngôn ngữ
Con người thực hiện phát hiện lượt nói thông qua các tín hiệu phức tạp như ngữ pháp, ngữ điệu, tốc độ nói
- Mục tiêu: xây dựng mô hình gần với kỳ vọng của con người hơn so với cách tiếp cận dựa trên VAD
Dự án phát triển mô hình phát hiện lượt nói âm thanh mã nguồn mở theo định hướng cộng đồng
- Giấy phép BSD 2-clause → bất kỳ ai cũng có thể sử dụng, fork và đóng góp
- Dự án bắt đầu từ hệ sinh thái Pipecat
- Pipecat: framework AI giọng nói và đa phương thức mã nguồn mở, độc lập với nhà cung cấp
Mục tiêu của dự án
- Mục tiêu cấp cao
  - Bất kỳ ai cũng có thể dễ dàng sử dụng
  - Dễ dàng triển khai trong môi trường production
  - Có thể dễ dàng fine-tune theo ứng dụng cụ thể
- Giới hạn của mô hình hiện tại
  - Chỉ hỗ trợ tiếng Anh
  - Tốc độ suy luận tương đối chậm: khoảng 150ms trên GPU, khoảng 1500ms trên CPU
  - Dữ liệu huấn luyện chủ yếu tập trung vào lời nói chưa hoàn chỉnh (filler words) xuất hiện ở cuối đoạn
- Mục tiêu trung hạn
  - Hỗ trợ nhiều ngôn ngữ
  - Thời gian suy luận: dưới 50ms trên GPU, dưới 500ms trên CPU
  - Phản ánh dữ liệu huấn luyện về sắc thái giọng nói rộng hơn
  - Xây dựng pipeline tạo dữ liệu tổng hợp hoàn chỉnh
  - Hỗ trợ conditioning dựa trên văn bản (ví dụ: nhập thẻ tín dụng, số điện thoại, địa chỉ, v.v.)
Kiến trúc mô hình
- Dựa trên backbone Wav2Vec2-BERT của Meta AI (số lượng tham số: 580M)
  - Sử dụng dữ liệu âm thanh học không giám sát 4,5 triệu giờ của 143 ngôn ngữ
- Cấu trúc mô hình hiện tại:
  - Wav2Vec2-BERT → bộ phân loại 2 lớp (classification head)
  - Sử dụng Wav2Vec2BertForSequenceClassification của Hugging Face
- Kiến trúc đang được thử nghiệm:
  - Đang kiểm tra liệu bộ phân loại đơn giản có còn hiệu quả khi mở rộng tập dữ liệu hay không
  - Đang xem xét khả năng đưa vào cấu trúc phức tạp hơn

1 bình luận

GN⁺ 2025-03-10

Ý kiến Hacker News

Tôi đã dùng thử pipecat và thấy khá tốt. Nhưng rồi đã chuyển sang sherpa-onnx vì nó có thể biên dịch native và chạy trên thiết bị edge
- Khi dùng ứng dụng Google Dịch, tôi thường nói những câu dài rồi tạm dừng hoặc nói chậm lại, nên tôi tránh chế độ hội thoại
- Vấn đề này cần phát hiện lượt nói có độ trễ thấp, phát hiện ngắt quãng lời nói và một LLM độ trễ cực thấp, rất nhanh
- Cần có khả năng khôi phục tốt để hệ thống có thể tiếp tục câu cuối cùng mà không bỏ phần âm thanh trước đó
- Để cải thiện độ trễ i/o, cần dùng API âm thanh độ trễ thấp, buffer âm thanh rất ngắn, cùng các category và mode âm thanh chuyên dụng
- Tôi không chắc có thể dùng TTS ở chế độ streaming hay không
- Push-to-talk được thiết kế tốt có thể là một giải pháp hay
Hôm nay có một vài cập nhật thú vị
- Suy luận 100ms với CoreML
- Mô hình LSTM được huấn luyện trên một tập con của dữ liệu
Tôi đã tìm được hầu hết câu trả lời trong README. Viết rất tốt
Tôi muốn biết liệu có thể chia sẻ lượng tài nguyên và khối lượng cần thiết để fine-tune Wav2Vec2-BERT hay không
Tôi thắc mắc turn detection là gì
Tôi rất vui khi thấy công nghệ này tiếp tục phát triển
- Từ những hệ thống giọng nói tệ hại như Siri cho đến chế độ giọng nói của ChatGPT, máy tính vẫn chưa làm tốt việc này
- Đây có thể là rào cản lớn nhất để các “agent” thực hiện những tác vụ đơn giản nhưng hữu ích
- Vẫn còn nhiều tình huống mà AI gặp khó khăn, và các lỗi kiểu này có thể phá hủy hiệu quả của cuộc hội thoại hoặc gây ra lỗi chức năng nghiêm trọng
Với tư cách là người được chẩn đoán mắc chứng tự kỷ mức độ cao, tôi muốn áp dụng công nghệ này vào earpiece
Sau khi xem qua một vài mô hình dựa trên lượt nói, tôi thấy cách triển khai rất đồng nhất. Rất mong chờ công nghệ này sẽ phát triển ra sao
Tôi hy vọng Vedal sẽ tích hợp công nghệ này vào mô hình của Neuro-sama. Một trường hợp đã biến từ bot osu thành AI Vtuber
Tôi thắc mắc liệu nó có hỗ trợ nhiều người nói hay không
Đang fork

Smart-turn - Mô hình phát hiện lượt nói âm thanh mã nguồn mở

Bài viết liên quan

1 bình luận

Ý kiến Hacker News