Lộ trình Voice AI: Tương lai của AI hội thoại

xguru · 2024-11-28T11:10:01+09:00

Voice AI không chỉ là một bản nâng cấp UI đơn thuần, mà còn đổi mới cách doanh nghiệp kết nối với khách hàng Ví dụ như dịch vụ khách hàng của hãng hàng không: thời gian chờ dài, lựa chọn menu lặp đi lặp lại, không hiểu rõ tình huống của khách hàng. Không giải quyết được vấn đề mà còn gây thêm căng thẳng và lãng phí thời gian Với Voice AI, khác với hệ thống IVR (phản hồi giọng nói tự động) cứng nhắc hiện có, có thể mang lại trải nghiệm trò chuyện như con người và cá nhân hóa trải nghiệm khách hàng đồng thời cung cấp dịch vụ 24/7 Hiểu ngay tình huống của khách hàng và đưa ra phương án tối ưu Ví dụ: tự động đặt lại chuyến bay bị hủy, đề xuất phương án thay thế dựa trên sở thích của khách hàng Trong một số tình huống, khách hàng thậm chí có thể thích AI agent hơn con người Voice AI vừa đáp ứng nhu cầu cao và kỳ vọng của khách hàng, vừa nâng cao hiệu quả vận hành Voice AI là sự hội tụ giữa mô hình AI gốc cho giọng nói và công nghệ đa phương thức Mang lại đổi mới mang tính nền tảng cho những ngành mà giao tiếp giữa người với người là yếu tố quan trọng Đáp ứng kỳ vọng của khách hàng, mở rộng vận hành một cách hiệu quả, đồng thời đặt nền móng cho kỷ nguyên truyền thông doanh nghiệp thế hệ tiếp theo Nghe những insight chính của bài viết này qua podcast do NotebookLM tạo ra Thị trường khổng lồ của giao tiếp bằng giọng nói Con người thích nói chuyện hơn: Mỗi ngày có hàng tỷ cuộc gọi được thực hiện Dù text, email và mạng xã hội đã trở nên phổ biến, điện thoại vẫn là phương tiện giao tiếp chủ đạo trong nhiều doanh nghiệp Đây là yếu tố thiết yếu trong nhiều ngành như y tế, dịch vụ pháp lý, dịch vụ tại nhà, bảo hiểm, logistics... để truyền đạt thông tin phức tạp, cung cấp dịch vụ cá nhân hóa và xử lý các tình huống khẩn cấp Vấn đề của giao tiếp qua điện thoại truyền thống Tỷ lệ phản hồi thấp: 62% SMB (doanh nghiệp vừa và nhỏ) bỏ lỡ cuộc gọi, không đáp ứng được nhu cầu khách hàng và đánh mất cơ hội kinh doanh Các vấn đề phổ biến: Ngoài giờ làm việc sẽ chuyển sang hộp thư thoại Chỉ xử lý được một cuộc gọi tại một thời điểm Chất lượng hỗ trợ không đồng đều Hạn chế kỹ thuật: Hệ thống IVR (được triển khai từ thập niên 1970): Chỉ xử lý được lệnh cài sẵn, thiếu linh hoạt: "Nhấn phím 1 để đặt lịch" "Hãy nói ngắn gọn nội dung bạn cần hỗ trợ" Không hiểu được ý định hay mức độ khẩn cấp của khách hàng Trải nghiệm khách hàng kém: Thời gian chờ lâu Điều hướng menu kém hiệu quả Không giải quyết được vấn đề Dù nhu cầu rất cao: Công nghệ hiện tại vẫn có giới hạn trong việc giải quyết vấn đề của khách hàng một cách hiệu quả và dễ chịu Cần công nghệ tự động hóa giọng nói tiên tiến hơn [Vì sao đây là thời điểm thích hợp để phát triển công nghệ Voice] Sự tiến hóa của công nghệ giọng nói Hệ thống IVR thời kỳ đầu: Công nghệ IVR (Interactive Voice Response) được đưa vào từ thập niên 1970: Chỉ xử lý được các lệnh được thiết lập sẵn Không hiểu được ý định và mức độ khẩn cấp của người dùng Dù là công nghệ không được ưa thích, đây vẫn là thị trường trị giá 5 tỷ USD Sự xuất hiện của công nghệ ASR/STT: Các mô hình ASR (nhận dạng giọng nói tự động) và STT (speech-to-text): Công nghệ chuyển đổi giọng nói thành văn bản theo thời gian thực Sự xuất hiện của các startup như Gong, Rev, DeepL OpenAI phát hành mô hình Whisper (2022) và Rev phát hành Reverb (2024): Hỗ trợ các hệ thống hội thoại tự nhiên có thể xử lý giọng địa phương, tiếng ồn nền và cảm xúc Đổi mới gần đây: sự phát triển của Voice AI: Phát triển các mô hình Text-To-Speech(TTS) tạo ra giọng nói giàu cảm xúc: Các công ty dẫn đầu như Eleven Labs Khả năng đa phương thức: Google Gemini 1.5: tích hợp đầu vào giọng nói, văn bản và hình ảnh Voice Engine của OpenAI: tạo giọng nói mô phỏng hội thoại của con người Phát hành GPT-4o: Tích hợp gốc theo thời gian thực giữa audio, vision và text Có thể xử lý hội thoại phức hợp và phản hồi thông minh Hai bước tiến lớn do các đổi mới gần đây mang lại Sự phổ biến của các mô hình chất lượng cao và phát triển ứng dụng: Giới hạn của kiến trúc "cascading" hiện có: Trong quá trình STT → LLM → TTS, xảy ra độ trễ và mất thông tin phi văn bản Độ trễ phản hồi (latency) cao gây ra trải nghiệm người dùng tiêu cực Mô hình mới: GPT-4 Turbo: giảm độ trễ Có thể lựa chọn mô hình tùy theo use case Sự trỗi dậy của mô hình Speech-to-Speech(STS): Xử lý trực tiếp mà không cần chuyển giọng nói thành văn bản: Độ trễ siêu thấp: thời gian phản hồi khoảng 300ms, cho phép hội thoại tự nhiên Hiểu ngữ cảnh: giữ lại thông tin của cuộc trò chuyện trước đó, nắm được ý định và cảm xúc Nâng cao nhận biết cảm xúc và tông giọng: phản hồi phản ánh cảm xúc và sắc thái Phát hiện hoạt động giọng nói theo thời gian thực: người dùng có thể trò chuyện mà không bị ngắt quãng Mô hình gốc cho giọng nói: tương lai của hội thoại bằng giọng nói Vượt qua giới hạn của kiến trúc cascading: Các mô hình STS chuyên cho giọng nói: Kyutai Moshi: mô hình mã nguồn mở Alibaba SenseVoice & CosyVoice: mô hình chuyên biệt cho giọng nói Hume Empathetic Voice Interface: xử lý phản hồi cảm xúc Realtime API của OpenAI: Hỗ trợ tương tác Speech-to-Speech dựa trên GPT-4o Những thách thức chính trong quá trình ứng dụng vào ngành Ba yếu tố lớn đang cản trở việc triển khai voice agent Chất lượng (Quality): Nhiều voice AI agent hiện vẫn chưa đủ ổn định để đáng tin cậy trong nhiều use case. Doanh nghiệp thường thử nghiệm voice agent trước trong môi trường rủi ro thấp: Ví dụ: một công ty sửa mái nhà nhỏ dùng agent để xử lý cuộc gọi ngoài giờ làm việc Khi mở rộng sang use case có giá trị cao hơn, tiêu chuẩn chất lượng trở nên khắt khe hơn Ví dụ: nếu một cuộc gọi của khách hàng có thể dẫn tới dự án trị giá 30.000 USD, mức độ chấp nhận thất bại của cuộc gọi sẽ rất thấp Niềm tin (Trust): Khách hàng đã có nhiều trải nghiệm tiêu cực với công nghệ IVR trước đây: Phản hồi chậm, cấu trúc menu kém hiệu quả, thiếu hội thoại tự nhiên Doanh nghiệp cần xây dựng niềm tin rằng AI có thể xử lý nhu cầu của khách hàng một cách chính xác và nhanh chóng Độ tin cậy (Reliability): Các khiếu nại điển hình: Rớt cuộc gọi: làm gián đoạn cuộc gọi và khiến khách hàng bực bội Hallucination: AI đưa ra câu trả lời không chính xác hoặc lạc đề Độ trễ phản hồi (latency): thời gian xử lý kéo dài khiến khách hàng rời bỏ Hướng phát triển để giải quyết vấn đề Tối ưu độ trễ và độ tin cậy: Ngày càng có nhiều nền tảng cho developer cung cấp hạ tầng đáng tin cậy hơn, tập trung vào giảm độ trễ và ngăn hội thoại bị gián đoạn Khả năng phục hồi linh hoạt khi lỗi xảy ra (Fail Gracefully): Khi cuộc gọi thất bại, khôi phục flow hội thoại một cách tự nhiên để giảm thiểu gián đoạn trải nghiệm khách hàng Điều phối hội thoại: Thiết kế để AI agent tuân theo flow có thể dự đoán được: giảm thiểu hallucination, thiết lập guardrail cho thông tin và phạm vi hội thoại được phép cung cấp cho khách hàng Bản đồ thị trường Voice AI Thị trường Voice AI đang có đổi mới ở nhiều lớp, từ mô hình nền tảng đến hạ tầng giọng nói, nền tảng developer và ứng dụng Đặc biệt, có những cơ hội đáng chú ý trong ba lĩnh vực cốt lõi dưới đây 1. Mô hình (Models) Chức năng: xây dựng công nghệ hỗ trợ các use case dựa trên giọng nói, chuyên về các công nghệ như SST(Speech-to-Speech), LLS(Large Language Models), TTS(Text-to-Speech)... Định hướng tương lai: Mô hình đa phương thức và mô hình gốc cho giọng nói sẽ dẫn dắt thị trường Công nghệ có thể xử lý trực tiếp audio mà không cần chuyển đổi qua lại giữa text và audio sẽ trở nên quan trọng Mô hình thế hệ tiếp theo: Các công ty như Cartesia đang tiên phong kiến trúc mới sử dụng State Space Models(SSMs) Có thể tách xử lý hội thoại đơn giản bằng mô hình nhỏ, còn tác vụ phức tạp dùng mô hình mạnh hơn để giảm latency và chi phí 2. Nền tảng developer (Developer Platforms) Việc xây dựng voice AI agent và quản lý hạ tầng giọng nói thời gian thực vẫn là thách thức kỹ thuật lớn với developer. Các nền tảng mới giải quyết sự phức tạp này và cung cấp nhiều hỗ trợ cho developer Tối ưu độ trễ và độ tin cậy: Quản lý các voice agent thời gian thực hiệu năng cao ở quy mô mở rộng. Quản lý tín hiệu hội thoại và ngữ cảnh phi ngôn ngữ: Phát hiện "endpointing" để xác định người dùng đã kết thúc phát biểu hay chưa. Lọc tiếng ồn nền và cải thiện phát hiện cảm xúc, trạng thái tình cảm. Xử lý lỗi hiệu quả: Phát hiện các API call thất bại và thử lại ngay lập tức. Chèn phản hồi thay thế để ngăn hội thoại bị gián đoạn. Tích hợp hệ thống bên thứ ba và hỗ trợ RAG: Cần tích hợp độ trễ thấp với cơ sở tri thức và hệ thống bên thứ ba. Kiểm soát luồng hội thoại: Hỗ trợ xử lý các cuộc hội thoại nhạy cảm hoặc bị quản lý bằng cách thiết kế flow có thể dự đoán được. Khả năng quan sát, phân tích và kiểm thử: Giải quyết tình trạng thiếu công cụ theo dõi chất lượng và hiệu năng hội thoại ở quy mô lớn. Ví dụ nền tảng Vapi: hỗ trợ giảm độ phức tạp của hạ tầng giọng nói và xây dựng nhanh voice agent chất lượng cao 3. Ứng dụng (Applications) Các sản phẩm tự động hóa sử dụng giọng nói đang được phát triển trong nhiều lĩnh vực. Đặc điểm của các ứng dụng được chú ý nhiều nhất: Xử lý trọn vẹn công việc của khách hàng và tạo ra kết quả có giá trị. Có khả năng mở rộng để xử lý đồng thời hàng nghìn cuộc gọi khi nhu cầu tăng đột biến. Cung cấp giải pháp tùy biến chuyên biệt cho từng ngành. Các cơ hội chính theo chức năng Phiên âm (Transcription): tạo ghi chú hội thoại, gợi ý công việc tiếp theo Cuộc gọi inbound (Inbound Calling): quản lý đặt chỗ, chuyển đổi khách hàng tiềm năng, quản lý thành công khách hàng Cuộc gọi outbound (Outbound Calling): sàng lọc ứng viên, xác nhận cuộc hẹn Đào tạo (Training): đào tạo bán hàng hoặc phỏng vấn. Đàm phán (Negotiation): đàm phán mua hàng, tranh chấp bảo hiểm, điều chỉnh hợp đồng Các khoản đầu tư tiêu biểu Abridge: lập tài liệu hội thoại y tế Rilla: coaching bán hàng hiện trường Rev: cung cấp dịch vụ phiên âm kết hợp AI và con người trên nhiều ngành Các trường hợp ứng dụng cụ thể Giải pháp chuyên biệt theo ngành Sameday AI: AI sales agent cho ngành dịch vụ tại nhà. Tự động hóa từ tiếp nhận cuộc gọi khách hàng → báo giá theo vấn đề → điều phối lịch → hoàn tất thanh toán. Cuộc gọi outbound Wayfaster: tự động hóa quy trình tuyển dụng. Tự động thực hiện các cuộc gọi sàng lọc ứng viên để tập trung vào những ứng viên tốt nhất. Y tế đàm phán bảo hiểm: sử dụng LLM để phân tích hàng nghìn tài liệu bảo hiểm và hồ sơ bệnh nhân, hỗ trợ đàm phán theo thời gian thực. Nguyên tắc đầu tư vào công nghệ Voice AI Hệ sinh thái Voice AI có cơ hội khởi nghiệp lớn nhất ở lớp nền tảng developer và lớp ứng dụng Nhờ tốc độ cải thiện mô hình rất nhanh, các doanh nhân có thể phát triển và kiểm thử MVP (sản phẩm khả dụng tối thiểu) hiệu quả với mức đầu tư ban đầu thấp 1. Giải pháp tích hợp sâu vào workflow theo ngành và đa phương thức Những ứng dụng voice AI có tác động mạnh nhất được tích hợp sâu với workflow của từng ngành cụ thể Được điều chỉnh phù hợp với ngôn ngữ và cách hội thoại đặc thù của từng ngành Ví dụ: Voice agent cho đại lý ô tô tích hợp với CRM để tận dụng dữ liệu tương tác khách hàng trong quá khứ, cải thiện chất lượng dịch vụ và tăng tốc triển khai Kết hợp giọng nói với text, hình ảnh và các modality khác để giải quyết những quy trình nhiều bước phức tạp hơn của con người 2. Cung cấp sản phẩm chất lượng cao bằng kỹ thuật vững chắc Việc tạo demo cho hackathon tương đối đơn giản, nhưng sản phẩm thực tế cần độ tin cậy cao, khả năng mở rộng và năng lực xử lý các use case thật Yêu cầu từ doanh nghiệp: hiệu năng nhất quán. Bảo đảm latency thấp. Tích hợp mượt mà với hệ thống hiện có Yếu tố thiết kế trọng tâm: xử lý đầu vào giọng nói khó đoán. Tăng cường bảo mật. Duy trì uptime cao 3. Cân bằng giữa tăng trưởng, giữ chân khách hàng và KPI chất lượng sản phẩm Voice agent có tiềm năng tăng trưởng mạnh trong các chức năng tạo doanh thu như bán hàng. Khi khách hàng chuyển workflow cốt lõi từ con người sang agent, suy giảm chất lượng có thể dẫn đến tỷ lệ churn cao. KPI quan trọng và chỉ số chất lượng Churn (tỷ lệ khách hàng rời bỏ): Ở giai đoạn đầu, nhiều ứng dụng voice gặp khó khăn do tỷ lệ rời bỏ cao. Xảy ra khi khách hàng chuyển sang đối thủ vì dịch vụ thiếu tin cậy. Self-Serve Resolution (tỷ lệ tự giải quyết): Cho biết voice agent giải quyết vấn đề của người dùng hiệu quả đến mức nào mà không cần con người can thiệp. Customer Satisfaction Score (điểm hài lòng khách hàng): Đo lường mức độ hài lòng tổng thể của khách hàng sau khi tương tác với voice agent, từ đó cung cấp insight về chất lượng. Call Termination Rates (tỷ lệ kết thúc cuộc gọi): Tỷ lệ cao cho thấy vấn đề trong trải nghiệm người dùng và các vấn đề chưa được giải quyết. Cohort Call Volume Expansion (mức mở rộng sản lượng cuộc gọi theo cohort): Đo lường liệu khách hàng có tăng mức sử dụng voice agent theo thời gian hay không; đây là chỉ dấu về giá trị sản phẩm và mức độ gắn kết của người dùng. Tương lai của Voice AI Những tiến bộ công nghệ trong vài năm gần đây đã mở ra khả năng phát triển các sản phẩm đổi mới giải quyết những vấn đề phức tạp Trong tương lai, các hệ thống hội thoại thời gian thực và đa phương thức được kỳ vọng sẽ giải quyết nhiều vấn đề hơn trong nhiều ngành khác nhau

(bvp.com)

13 điểm bởi xguru 2024-11-28 | 1 bình luận | Chia sẻ qua WhatsApp

Voice AI không chỉ là một bản nâng cấp UI đơn thuần, mà còn đổi mới cách doanh nghiệp kết nối với khách hàng
- Ví dụ như dịch vụ khách hàng của hãng hàng không: thời gian chờ dài, lựa chọn menu lặp đi lặp lại, không hiểu rõ tình huống của khách hàng. Không giải quyết được vấn đề mà còn gây thêm căng thẳng và lãng phí thời gian
- Với Voice AI, khác với hệ thống IVR (phản hồi giọng nói tự động) cứng nhắc hiện có, có thể mang lại trải nghiệm trò chuyện như con người và cá nhân hóa trải nghiệm khách hàng đồng thời cung cấp dịch vụ 24/7
  - Hiểu ngay tình huống của khách hàng và đưa ra phương án tối ưu
  - Ví dụ: tự động đặt lại chuyến bay bị hủy, đề xuất phương án thay thế dựa trên sở thích của khách hàng
  - Trong một số tình huống, khách hàng thậm chí có thể thích AI agent hơn con người
- Voice AI vừa đáp ứng nhu cầu cao và kỳ vọng của khách hàng, vừa nâng cao hiệu quả vận hành
Voice AI là sự hội tụ giữa mô hình AI gốc cho giọng nói và công nghệ đa phương thức
- Mang lại đổi mới mang tính nền tảng cho những ngành mà giao tiếp giữa người với người là yếu tố quan trọng
- Đáp ứng kỳ vọng của khách hàng, mở rộng vận hành một cách hiệu quả, đồng thời đặt nền móng cho kỷ nguyên truyền thông doanh nghiệp thế hệ tiếp theo
- Nghe những insight chính của bài viết này qua podcast do NotebookLM tạo ra

Thị trường khổng lồ của giao tiếp bằng giọng nói

Con người thích nói chuyện hơn:
- Mỗi ngày có hàng tỷ cuộc gọi được thực hiện
- Dù text, email và mạng xã hội đã trở nên phổ biến, điện thoại vẫn là phương tiện giao tiếp chủ đạo trong nhiều doanh nghiệp
- Đây là yếu tố thiết yếu trong nhiều ngành như y tế, dịch vụ pháp lý, dịch vụ tại nhà, bảo hiểm, logistics... để truyền đạt thông tin phức tạp, cung cấp dịch vụ cá nhân hóa và xử lý các tình huống khẩn cấp
Vấn đề của giao tiếp qua điện thoại truyền thống
- Tỷ lệ phản hồi thấp:
  - 62% SMB (doanh nghiệp vừa và nhỏ) bỏ lỡ cuộc gọi, không đáp ứng được nhu cầu khách hàng và đánh mất cơ hội kinh doanh
  - Các vấn đề phổ biến:
    - Ngoài giờ làm việc sẽ chuyển sang hộp thư thoại
    - Chỉ xử lý được một cuộc gọi tại một thời điểm
    - Chất lượng hỗ trợ không đồng đều
- Hạn chế kỹ thuật:
  - Hệ thống IVR (được triển khai từ thập niên 1970):
    - Chỉ xử lý được lệnh cài sẵn, thiếu linh hoạt: "Nhấn phím 1 để đặt lịch" "Hãy nói ngắn gọn nội dung bạn cần hỗ trợ"
    - Không hiểu được ý định hay mức độ khẩn cấp của khách hàng
  - Trải nghiệm khách hàng kém:
    - Thời gian chờ lâu
    - Điều hướng menu kém hiệu quả
    - Không giải quyết được vấn đề
Dù nhu cầu rất cao:
- Công nghệ hiện tại vẫn có giới hạn trong việc giải quyết vấn đề của khách hàng một cách hiệu quả và dễ chịu
- Cần công nghệ tự động hóa giọng nói tiên tiến hơn

[Vì sao đây là thời điểm thích hợp để phát triển công nghệ Voice]

Sự tiến hóa của công nghệ giọng nói

Hệ thống IVR thời kỳ đầu:

Công nghệ IVR (Interactive Voice Response) được đưa vào từ thập niên 1970:
- Chỉ xử lý được các lệnh được thiết lập sẵn
- Không hiểu được ý định và mức độ khẩn cấp của người dùng
Dù là công nghệ không được ưa thích, đây vẫn là thị trường trị giá 5 tỷ USD

Sự xuất hiện của công nghệ ASR/STT:

Các mô hình ASR (nhận dạng giọng nói tự động) và STT (speech-to-text):
- Công nghệ chuyển đổi giọng nói thành văn bản theo thời gian thực
- Sự xuất hiện của các startup như Gong, Rev, DeepL
- OpenAI phát hành mô hình Whisper (2022) và Rev phát hành Reverb (2024):
  - Hỗ trợ các hệ thống hội thoại tự nhiên có thể xử lý giọng địa phương, tiếng ồn nền và cảm xúc

Đổi mới gần đây: sự phát triển của Voice AI:

Phát triển các mô hình Text-To-Speech(TTS) tạo ra giọng nói giàu cảm xúc:
- Các công ty dẫn đầu như Eleven Labs
Khả năng đa phương thức:
- Google Gemini 1.5: tích hợp đầu vào giọng nói, văn bản và hình ảnh
- Voice Engine của OpenAI: tạo giọng nói mô phỏng hội thoại của con người
Phát hành GPT-4o:
- Tích hợp gốc theo thời gian thực giữa audio, vision và text
- Có thể xử lý hội thoại phức hợp và phản hồi thông minh

Hai bước tiến lớn do các đổi mới gần đây mang lại

Sự phổ biến của các mô hình chất lượng cao và phát triển ứng dụng:
- Giới hạn của kiến trúc "cascading" hiện có:
  - Trong quá trình STT → LLM → TTS, xảy ra độ trễ và mất thông tin phi văn bản
  - Độ trễ phản hồi (latency) cao gây ra trải nghiệm người dùng tiêu cực
- Mô hình mới:
  - GPT-4 Turbo: giảm độ trễ
  - Có thể lựa chọn mô hình tùy theo use case
Sự trỗi dậy của mô hình Speech-to-Speech(STS):
- Xử lý trực tiếp mà không cần chuyển giọng nói thành văn bản:
  - Độ trễ siêu thấp: thời gian phản hồi khoảng 300ms, cho phép hội thoại tự nhiên
  - Hiểu ngữ cảnh: giữ lại thông tin của cuộc trò chuyện trước đó, nắm được ý định và cảm xúc
  - Nâng cao nhận biết cảm xúc và tông giọng: phản hồi phản ánh cảm xúc và sắc thái
  - Phát hiện hoạt động giọng nói theo thời gian thực: người dùng có thể trò chuyện mà không bị ngắt quãng

Mô hình gốc cho giọng nói: tương lai của hội thoại bằng giọng nói

Vượt qua giới hạn của kiến trúc cascading:
- Các mô hình STS chuyên cho giọng nói:
  - Kyutai Moshi: mô hình mã nguồn mở
  - Alibaba SenseVoice & CosyVoice: mô hình chuyên biệt cho giọng nói
  - Hume Empathetic Voice Interface: xử lý phản hồi cảm xúc
Realtime API của OpenAI:
- Hỗ trợ tương tác Speech-to-Speech dựa trên GPT-4o

Những thách thức chính trong quá trình ứng dụng vào ngành

Ba yếu tố lớn đang cản trở việc triển khai voice agent

Chất lượng (Quality):
- Nhiều voice AI agent hiện vẫn chưa đủ ổn định để đáng tin cậy trong nhiều use case.
- Doanh nghiệp thường thử nghiệm voice agent trước trong môi trường rủi ro thấp:
  - Ví dụ: một công ty sửa mái nhà nhỏ dùng agent để xử lý cuộc gọi ngoài giờ làm việc
  - Khi mở rộng sang use case có giá trị cao hơn, tiêu chuẩn chất lượng trở nên khắt khe hơn
  - Ví dụ: nếu một cuộc gọi của khách hàng có thể dẫn tới dự án trị giá 30.000 USD, mức độ chấp nhận thất bại của cuộc gọi sẽ rất thấp
Niềm tin (Trust):
- Khách hàng đã có nhiều trải nghiệm tiêu cực với công nghệ IVR trước đây:
  - Phản hồi chậm, cấu trúc menu kém hiệu quả, thiếu hội thoại tự nhiên
- Doanh nghiệp cần xây dựng niềm tin rằng AI có thể xử lý nhu cầu của khách hàng một cách chính xác và nhanh chóng
Độ tin cậy (Reliability):
- Các khiếu nại điển hình:
  - Rớt cuộc gọi: làm gián đoạn cuộc gọi và khiến khách hàng bực bội
  - Hallucination: AI đưa ra câu trả lời không chính xác hoặc lạc đề
  - Độ trễ phản hồi (latency): thời gian xử lý kéo dài khiến khách hàng rời bỏ

Hướng phát triển để giải quyết vấn đề

Tối ưu độ trễ và độ tin cậy:
- Ngày càng có nhiều nền tảng cho developer cung cấp hạ tầng đáng tin cậy hơn, tập trung vào giảm độ trễ và ngăn hội thoại bị gián đoạn
Khả năng phục hồi linh hoạt khi lỗi xảy ra (Fail Gracefully):
- Khi cuộc gọi thất bại, khôi phục flow hội thoại một cách tự nhiên để giảm thiểu gián đoạn trải nghiệm khách hàng
Điều phối hội thoại:
- Thiết kế để AI agent tuân theo flow có thể dự đoán được: giảm thiểu hallucination, thiết lập guardrail cho thông tin và phạm vi hội thoại được phép cung cấp cho khách hàng

Bản đồ thị trường Voice AI

Thị trường Voice AI đang có đổi mới ở nhiều lớp, từ mô hình nền tảng đến hạ tầng giọng nói, nền tảng developer và ứng dụng
Đặc biệt, có những cơ hội đáng chú ý trong ba lĩnh vực cốt lõi dưới đây

1. Mô hình (Models)

Chức năng: xây dựng công nghệ hỗ trợ các use case dựa trên giọng nói, chuyên về các công nghệ như SST(Speech-to-Speech), LLS(Large Language Models), TTS(Text-to-Speech)...
Định hướng tương lai:
- Mô hình đa phương thức và mô hình gốc cho giọng nói sẽ dẫn dắt thị trường
- Công nghệ có thể xử lý trực tiếp audio mà không cần chuyển đổi qua lại giữa text và audio sẽ trở nên quan trọng
Mô hình thế hệ tiếp theo:
- Các công ty như Cartesia đang tiên phong kiến trúc mới sử dụng State Space Models(SSMs)
- Có thể tách xử lý hội thoại đơn giản bằng mô hình nhỏ, còn tác vụ phức tạp dùng mô hình mạnh hơn để giảm latency và chi phí

2. Nền tảng developer (Developer Platforms)

Việc xây dựng voice AI agent và quản lý hạ tầng giọng nói thời gian thực vẫn là thách thức kỹ thuật lớn với developer. Các nền tảng mới giải quyết sự phức tạp này và cung cấp nhiều hỗ trợ cho developer
Tối ưu độ trễ và độ tin cậy:
- Quản lý các voice agent thời gian thực hiệu năng cao ở quy mô mở rộng.
Quản lý tín hiệu hội thoại và ngữ cảnh phi ngôn ngữ:
- Phát hiện "endpointing" để xác định người dùng đã kết thúc phát biểu hay chưa.
- Lọc tiếng ồn nền và cải thiện phát hiện cảm xúc, trạng thái tình cảm.
Xử lý lỗi hiệu quả:
- Phát hiện các API call thất bại và thử lại ngay lập tức.
- Chèn phản hồi thay thế để ngăn hội thoại bị gián đoạn.
Tích hợp hệ thống bên thứ ba và hỗ trợ RAG:
- Cần tích hợp độ trễ thấp với cơ sở tri thức và hệ thống bên thứ ba.
Kiểm soát luồng hội thoại:
- Hỗ trợ xử lý các cuộc hội thoại nhạy cảm hoặc bị quản lý bằng cách thiết kế flow có thể dự đoán được.
Khả năng quan sát, phân tích và kiểm thử:
- Giải quyết tình trạng thiếu công cụ theo dõi chất lượng và hiệu năng hội thoại ở quy mô lớn.
Ví dụ nền tảng Vapi: hỗ trợ giảm độ phức tạp của hạ tầng giọng nói và xây dựng nhanh voice agent chất lượng cao

3. Ứng dụng (Applications)

Các sản phẩm tự động hóa sử dụng giọng nói đang được phát triển trong nhiều lĩnh vực.
Đặc điểm của các ứng dụng được chú ý nhiều nhất:
- Xử lý trọn vẹn công việc của khách hàng và tạo ra kết quả có giá trị.
- Có khả năng mở rộng để xử lý đồng thời hàng nghìn cuộc gọi khi nhu cầu tăng đột biến.
- Cung cấp giải pháp tùy biến chuyên biệt cho từng ngành.
Các cơ hội chính theo chức năng
- Phiên âm (Transcription): tạo ghi chú hội thoại, gợi ý công việc tiếp theo
- Cuộc gọi inbound (Inbound Calling): quản lý đặt chỗ, chuyển đổi khách hàng tiềm năng, quản lý thành công khách hàng
- Cuộc gọi outbound (Outbound Calling): sàng lọc ứng viên, xác nhận cuộc hẹn
- Đào tạo (Training): đào tạo bán hàng hoặc phỏng vấn.
- Đàm phán (Negotiation): đàm phán mua hàng, tranh chấp bảo hiểm, điều chỉnh hợp đồng
Các khoản đầu tư tiêu biểu
- Abridge: lập tài liệu hội thoại y tế
- Rilla: coaching bán hàng hiện trường
- Rev: cung cấp dịch vụ phiên âm kết hợp AI và con người trên nhiều ngành

Các trường hợp ứng dụng cụ thể

Giải pháp chuyên biệt theo ngành Sameday AI: AI sales agent cho ngành dịch vụ tại nhà. Tự động hóa từ tiếp nhận cuộc gọi khách hàng → báo giá theo vấn đề → điều phối lịch → hoàn tất thanh toán.
Cuộc gọi outbound Wayfaster: tự động hóa quy trình tuyển dụng. Tự động thực hiện các cuộc gọi sàng lọc ứng viên để tập trung vào những ứng viên tốt nhất.
Y tế đàm phán bảo hiểm: sử dụng LLM để phân tích hàng nghìn tài liệu bảo hiểm và hồ sơ bệnh nhân, hỗ trợ đàm phán theo thời gian thực.

Nguyên tắc đầu tư vào công nghệ Voice AI

Hệ sinh thái Voice AI có cơ hội khởi nghiệp lớn nhất ở lớp nền tảng developer và lớp ứng dụng
Nhờ tốc độ cải thiện mô hình rất nhanh, các doanh nhân có thể phát triển và kiểm thử MVP (sản phẩm khả dụng tối thiểu) hiệu quả với mức đầu tư ban đầu thấp
1. Giải pháp tích hợp sâu vào workflow theo ngành và đa phương thức
- Những ứng dụng voice AI có tác động mạnh nhất được tích hợp sâu với workflow của từng ngành cụ thể
- Được điều chỉnh phù hợp với ngôn ngữ và cách hội thoại đặc thù của từng ngành
- Ví dụ:
  - Voice agent cho đại lý ô tô tích hợp với CRM để tận dụng dữ liệu tương tác khách hàng trong quá khứ, cải thiện chất lượng dịch vụ và tăng tốc triển khai
  - Kết hợp giọng nói với text, hình ảnh và các modality khác để giải quyết những quy trình nhiều bước phức tạp hơn của con người
2. Cung cấp sản phẩm chất lượng cao bằng kỹ thuật vững chắc
- Việc tạo demo cho hackathon tương đối đơn giản, nhưng sản phẩm thực tế cần độ tin cậy cao, khả năng mở rộng và năng lực xử lý các use case thật
- Yêu cầu từ doanh nghiệp: hiệu năng nhất quán. Bảo đảm latency thấp. Tích hợp mượt mà với hệ thống hiện có
- Yếu tố thiết kế trọng tâm: xử lý đầu vào giọng nói khó đoán. Tăng cường bảo mật. Duy trì uptime cao
3. Cân bằng giữa tăng trưởng, giữ chân khách hàng và KPI chất lượng sản phẩm
- Voice agent có tiềm năng tăng trưởng mạnh trong các chức năng tạo doanh thu như bán hàng.
- Khi khách hàng chuyển workflow cốt lõi từ con người sang agent, suy giảm chất lượng có thể dẫn đến tỷ lệ churn cao.

KPI quan trọng và chỉ số chất lượng

Churn (tỷ lệ khách hàng rời bỏ):
- Ở giai đoạn đầu, nhiều ứng dụng voice gặp khó khăn do tỷ lệ rời bỏ cao.
- Xảy ra khi khách hàng chuyển sang đối thủ vì dịch vụ thiếu tin cậy.
Self-Serve Resolution (tỷ lệ tự giải quyết):
- Cho biết voice agent giải quyết vấn đề của người dùng hiệu quả đến mức nào mà không cần con người can thiệp.
Customer Satisfaction Score (điểm hài lòng khách hàng):
- Đo lường mức độ hài lòng tổng thể của khách hàng sau khi tương tác với voice agent, từ đó cung cấp insight về chất lượng.
Call Termination Rates (tỷ lệ kết thúc cuộc gọi):
- Tỷ lệ cao cho thấy vấn đề trong trải nghiệm người dùng và các vấn đề chưa được giải quyết.
Cohort Call Volume Expansion (mức mở rộng sản lượng cuộc gọi theo cohort):
- Đo lường liệu khách hàng có tăng mức sử dụng voice agent theo thời gian hay không; đây là chỉ dấu về giá trị sản phẩm và mức độ gắn kết của người dùng.

Tương lai của Voice AI

Những tiến bộ công nghệ trong vài năm gần đây đã mở ra khả năng phát triển các sản phẩm đổi mới giải quyết những vấn đề phức tạp
Trong tương lai, các hệ thống hội thoại thời gian thực và đa phương thức được kỳ vọng sẽ giải quyết nhiều vấn đề hơn trong nhiều ngành khác nhau

1 bình luận

xguru 2024-11-28

Chắc vì trước đây tôi từng làm bên mảng IVR nên khá quan tâm đến lĩnh vực này, haha.

Hãy xem thêm bài Mọi thứ về AI Voice Agent do a16z tổng hợp