- Trình chỉnh sửa tài liệu dựa trên giọng nói, kết hợp nhận dạng giọng nói với các lệnh ngôn ngữ tự nhiên
- Khi người dùng nói như "hãy chuyển thành danh sách" hoặc "hãy thêm trích dẫn nội dòng ở trang 86 của cuốn sách này", hệ thống sẽ thực thi lệnh tương ứng
- Phần mềm nhận dạng giọng nói vẫn mang lại trải nghiệm bất tiện và mong manh
- Các phần mềm cạnh tranh về độ chính xác, nhưng không xử lý được bản chất mong manh của văn bản được tạo ra
- Người dùng phải học các lệnh đặc biệt, nên chưa đủ để thay thế bàn phím
- Cách Aqua Voice giải quyết vấn đề
- Aqua có thể chép lại nguyên văn lời nói của người dùng, thực thi lệnh, hoặc tinh chỉnh lời nói thành văn bản đúng với ý định muốn viết
- Khi người dùng nói lắp hoặc lặp lại câu nhiều lần, Aqua chỉ chọn phiên bản cuối cùng để chuyển thành văn bản
- Tầm nhìn và công nghệ của Aqua Voice
- Hướng tới việc mang lại trải nghiệm nhận dạng giọng nói tự nhiên hơn và trải nghiệm viết với AI mang tính cộng tác
- Cung cấp dịch vụ theo phương thức streaming, kết nối liên tục với mô hình theo thời gian thực
- 6 mô hình phối hợp để phiên dịch, diễn giải và viết lại tài liệu theo ý định
- Sử dụng phiên âm MoE(Mixture of Experts) để cải thiện độ chính xác theo thời gian thực
1 bình luận
Ý kiến trên Hacker News
Tôi muốn dùng cái này để đọc chính tả thư gửi bệnh nhân các kiểu. Mô hình chạy cục bộ/tuân thủ HIPAA còn xa không?
Là một người đa dạng thần kinh giống đồng nghiệp của mình nhưng làm việc với văn bản tốt hơn nhiều so với giọng nói, tôi cực kỳ thích ý tưởng này. Phản hồi duy nhất của tôi là... tôi muốn chạy nó với nhiều quyền kiểm soát hơn. Tôi đã chạy LLM cục bộ rồi (ví dụ LM Studio), và cũng có thể chạy thứ như whisper. Tôi hiểu rằng việc mã nguồn mở hóa (hoặc cho phép truy cập mã nguồn) có thể đi ngược lại nỗ lực thương mại hóa. Tuy nhiên, có thể có một vài lựa chọn như Red Hat, nơi bạn thu phí cho mục đích sử dụng doanh nghiệp nhưng cho phép chạy cục bộ miễn phí với mục đích cá nhân.
Một mặt, bạn có lợi thế người đi đầu khá vững chắc trong lĩnh vực mà nhiều người có thể hưởng lợi và sử dụng, nhưng ai đó cũng có thể tạo ra cạnh tranh bằng cách ghép nhiều lớp đầu ra của nhiều LLM lại với nhau (các dự án như vậy thường là mã nguồn mở, dù đôi khi kém 'trau chuốt' hơn). Nếu bạn đưa ra một thỏa thuận tốt, có thể sẽ có cơ hội thành công rất lớn. Chúc may mắn!"