9 điểm bởi xguru 2024-03-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trình chỉnh sửa tài liệu dựa trên giọng nói, kết hợp nhận dạng giọng nói với các lệnh ngôn ngữ tự nhiên
  • Khi người dùng nói như "hãy chuyển thành danh sách" hoặc "hãy thêm trích dẫn nội dòng ở trang 86 của cuốn sách này", hệ thống sẽ thực thi lệnh tương ứng
  • Phần mềm nhận dạng giọng nói vẫn mang lại trải nghiệm bất tiện và mong manh
    • Các phần mềm cạnh tranh về độ chính xác, nhưng không xử lý được bản chất mong manh của văn bản được tạo ra
    • Người dùng phải học các lệnh đặc biệt, nên chưa đủ để thay thế bàn phím
  • Cách Aqua Voice giải quyết vấn đề
    • Aqua có thể chép lại nguyên văn lời nói của người dùng, thực thi lệnh, hoặc tinh chỉnh lời nói thành văn bản đúng với ý định muốn viết
    • Khi người dùng nói lắp hoặc lặp lại câu nhiều lần, Aqua chỉ chọn phiên bản cuối cùng để chuyển thành văn bản
  • Tầm nhìn và công nghệ của Aqua Voice
    • Hướng tới việc mang lại trải nghiệm nhận dạng giọng nói tự nhiên hơn và trải nghiệm viết với AI mang tính cộng tác
    • Cung cấp dịch vụ theo phương thức streaming, kết nối liên tục với mô hình theo thời gian thực
    • 6 mô hình phối hợp để phiên dịch, diễn giải và viết lại tài liệu theo ý định
    • Sử dụng phiên âm MoE(Mixture of Experts) để cải thiện độ chính xác theo thời gian thực

1 bình luận

 
xguru 2024-03-29

Ý kiến trên Hacker News

  • Tuyệt vời! Một vài phản hồi:
    • Thuật ngữ '1000 token' không có ý nghĩa gì với người dùng không chuyên kỹ thuật, và với tôi thì cũng gần như vậy. Chỉ cần cho tôi biết đơn giản là tôi có thể nói được bao nhiêu từ
    • Bảng tỷ lệ lỗi LaTeX với font serif đó cũng quá nhàm chán. Mọi người muốn những câu nổi bật kiểu như 'ít lỗi hơn tới 7 lần so với dictation trên macOS'. Không phải bảng so sánh.
    • 'Tỷ lệ lỗi từ 0.05' cũng nên bỏ đi. Hãy giải thích nó có nghĩa là gì và dùng phần trăm.
    • 'Quên tên, từ, dữ kiện hay con số? Hãy nhờ Aqua điền vào.' Sẽ tốt hơn nếu có thể tắt tính năng này, hoặc ít nhất phải có chỉ báo rõ ràng khi nội dung tôi chưa nói lại được chèn vào tài liệu. Khi tôi đọc chính tả, thường tôi chỉ muốn những từ mình đã nói xuất hiện trên trang.
  • Như những người khác đã nói, làm tốt lắm.
    • Cái này có vẻ đặc biệt tốt trên điện thoại hoặc đồng hồ. Có cảm giác như một thay đổi cuộc chơi thật sự cho khả năng ghi chú ở những nơi trải nghiệm bàn phím không tốt.
    • Bạn đã thử dùng nó để viết code chưa? Nó có thể cực kỳ tuyệt vời dưới dạng plugin cho IDE/trình soạn thảo văn bản.
    • Thật vui khi thấy bạn không làm điều gì đáng hối hận với AI. Nhiều ứng dụng chúng ta thấy thật kinh khủng. Thứ bạn tạo ra rất xuất sắc và hoàn toàn không giống trải nghiệm nhà máy sô-cô-la bị nguyền rủa.
  • Tôi bị chấn thương liên quan đến RSI vào khoảng năm 94/95 và từ đó đến nay đã dùng nhận dạng giọng nói. Tôi muốn một giải pháp giúp tôi rời khỏi Windows. Tôi muốn một giải pháp có thể đọc chính tả dễ dàng trong Firefox, Thunderbird và VS Code. Điều quan trọng nhất là khả năng chỉnh sửa/thao tác văn bản mà Nuance gọi là 'Select-and-Say'. Có thể chỉnh sửa nhỏ, thay câu bằng đoạn đọc chính tả mới, v.v., và điều đó khiến việc dùng giọng nói dễ hơn nhiều so với chỉ ghi lại phần đọc chính tả như hầu hết các ứng dụng kiểu whisper. Nếu làm được điều này, tôi sẽ là khách hàng trọn đời.
    • Điều quan trọng tiếp theo là khả năng viết các action routine cho ngữ pháp. Tôi thích Python hơn vì đó là mục tiêu dễ nhất khi nhờ chatGPT viết code. Nhưng tôi cũng có thể học ngôn ngữ khác (trừ JavaScript, tôi ghét nó). Tôi dẫn chiếu đến gói 'natPython' của Joel Gould. Đây là bài trình bày gốc và những gì mọi người đã xây dựng.
    • Có những bài học từ quá khứ. Ở giai đoạn đầu của DragonDictate/NaturallySpeaking, khi Baker điều hành Dragon Systems, họ thường xuyên cử nhân viên đến các buổi họp nhóm người dùng nhận dạng giọng nói tại địa phương để nói chuyện với chúng tôi về điều gì hiệu quả và điều gì thất bại. Họ biết rằng việc quan sát những người khuyết tật như chúng tôi sẽ cho họ nhiều thông tin hơn bất kỳ cộng đồng người dùng nào khác về cách xây dựng trải nghiệm nhận dạng giọng nói tốt. Chúng tôi phát hiện các corner case sớm hơn bất kỳ ai khác. Họ đã làm một số việc rất tốt. Ví dụ, họ hỗ trợ một vài buổi họp nhóm người dùng nhận dạng giọng nói bằng không gian và thời gian của nhân viên.
    • Có vẻ Nuance đã quên mất bài học đó.
    • Dù sao thì, hôm nay tôi định làm việc, nhưng bài giới thiệu của bạn đã bắn toang điều đó trong đầu tôi. :-)
    • [Bổ sung sau khi dùng] Thật sự rất ấn tượng. Rõ ràng là tôi cần dành thêm thời gian cho thứ này. Tôi nhận ra trải nghiệm với Naturally Speaking đã giới hạn tầm nhìn của mình, còn bạn có một tầm nhìn rộng hơn rất nhiều về việc giao diện người dùng có thể trở thành gì.
  • Tôi đã muốn có thứ như thế này để nhập liệu. Tôi thường phải đo đạc đồ đạc trong lúc tay đang bận và cần ghi chú. Nó có thể xuất/định dạng dữ liệu dạng bảng không?
  • Cái này thật sự quá đỉnh. Tôi đã mong có ai đó làm ra nó:
    • Tôi sẵn sàng trả $10/tháng cho cái này. Nhưng thứ tôi thực sự muốn là một trong hai điều sau:
      • Một plugin Raycast hoặc ứng dụng desktop để cái này có thể tương tác với mọi vùng văn bản có thể chỉnh sửa trong môi trường của tôi
      • Một API nơi bạn có thể truyền văn bản/ngữ cảnh hiện có + luồng âm thanh và nhận lại nhịp cập nhật liên tục của toàn bộ tài liệu. Khi đó cộng đồng có thể xây dựng plugin cho Obsidian/VSCode/trình duyệt cho một phạm vi khổng lồ các chỗ nhập văn bản
    • Chiều nay dù sao tôi cũng sẽ trả $10, và xin chúc mừng!
  • Phần mềm đọc chính tả cực kỳ quan trọng trong ngành y tế. Mọi bác sĩ đều dùng nó, và thứ như giải pháp của bạn có thể khiến công việc của họ hiệu quả hơn nhiều. Bạn đã từng khám phá phân khúc thị trường này chưa?
  • Cái này thật đáng kinh ngạc! Dùng rất đã, và sự kết hợp giữa phiên âm + ý định có vẻ có tiềm năng khổng lồ.
    Tôi muốn dùng cái này để đọc chính tả thư gửi bệnh nhân các kiểu. Mô hình chạy cục bộ/tuân thủ HIPAA còn xa không?
  • Chúc mừng ra mắt!
    Là một người đa dạng thần kinh giống đồng nghiệp của mình nhưng làm việc với văn bản tốt hơn nhiều so với giọng nói, tôi cực kỳ thích ý tưởng này. Phản hồi duy nhất của tôi là... tôi muốn chạy nó với nhiều quyền kiểm soát hơn. Tôi đã chạy LLM cục bộ rồi (ví dụ LM Studio), và cũng có thể chạy thứ như whisper. Tôi hiểu rằng việc mã nguồn mở hóa (hoặc cho phép truy cập mã nguồn) có thể đi ngược lại nỗ lực thương mại hóa. Tuy nhiên, có thể có một vài lựa chọn như Red Hat, nơi bạn thu phí cho mục đích sử dụng doanh nghiệp nhưng cho phép chạy cục bộ miễn phí với mục đích cá nhân.
    Một mặt, bạn có lợi thế người đi đầu khá vững chắc trong lĩnh vực mà nhiều người có thể hưởng lợi và sử dụng, nhưng ai đó cũng có thể tạo ra cạnh tranh bằng cách ghép nhiều lớp đầu ra của nhiều LLM lại với nhau (các dự án như vậy thường là mã nguồn mở, dù đôi khi kém 'trau chuốt' hơn). Nếu bạn đưa ra một thỏa thuận tốt, có thể sẽ có cơ hội thành công rất lớn. Chúc may mắn!"
  • Cái này rất hay, có lẽ tôi sẽ đăng ký--chỉ là phải cắt bớt các đăng ký khác của mình--gần đây có quá nhiều sản phẩm AI hấp dẫn.
  • Dù không nói rõ, tôi muốn biết dữ liệu nào được gửi lên cloud - tôi đoán là bản ghi âm giọng nói đầy đủ. Hay STT được thực hiện trên thiết bị? Ngoài ra, chính sách quyền riêng tư/lưu trữ dữ liệu của bạn đối với dữ liệu này là gì? Demo rất tuyệt và sản phẩm cũng rất hay!