a16z: Hiện trạng của AI Voice Agent - 2025

xguru · 2025-02-06T09:48:02+09:00

Thesis của chúng tôi - "Tại sao là giọng nói?" Giọng nói đóng vai trò là một bước đột phá mạnh mẽ về mặt khả năng ứng dụng AI Từ góc độ doanh nghiệp, AI cho phép thay thế nhân lực và hỗ trợ khách hàng 24/7 Từ góc độ người dùng, có dự báo rằng giọng nói sẽ trở thành giao diện AI chủ đạo Hiện tại là thời điểm hạ tầng AI giọng nói đã phần nào ổn định, và giọng nói bắt đầu được ứng dụng nghiêm túc trong nhiều loại ứng dụng khác nhau Có quan điểm cho rằng khi hiệu năng mô hình được cải thiện, giọng nói sẽ không còn là bản thân sản phẩm mà sẽ hoạt động như một "wedge" để thâm nhập thị trường Những điều mới đã được công bố từ trước đến nay Tháng 5/2024: OpenAI ra mắt GPT-4o voice với khả năng phản hồi giọng nói theo thời gian thực, Cartesia công bố Sonic Tháng 6/2024: Character giới thiệu tính năng gọi thoại ở bản beta, Apple công bố tích hợp ChatGPT vào Siri Tháng 7/2024: OpenAI triển khai Advanced Voice, Speechmatics công bố mô hình Flow Tháng 8/2024: Amazon tích hợp Claude vào Alexa, Meta cung cấp bạn đồng hành AI sử dụng giọng nói người nổi tiếng Tháng 9/2024: NotebookLM gây chú ý với Audio Overview, PlayHT công bố mô hình 2.0 Tháng 10/2024: OpenAI ra mắt API thời gian thực, Kyutai công bố mô hình Moshi Tháng 11/2024: ElevenLabs ra mắt Conversational AI, NVIDIA công bố mô hình Fugatto, Gemini Live phát hành ứng dụng thời gian thực Tháng 12/2024: ChatGPT Advanced Voice Mode được tích hợp tìm kiếm Internet, 1-800-CHATGPT ra mắt và thu hút chú ý Điều gì đã thay đổi? Hạ tầng mô hình đã được đơn giản hóa, và các voice agent có độ trễ thấp cùng hiệu năng cao đã xuất hiện Các mô hình hội thoại mới trong 6 tháng gần đây là động lực lớn cho sự cải thiện hiệu năng này Chi phí cũng đang giảm; vào tháng 12/2024, OpenAI đã giảm mạnh giá API thời gian thực của GPT-4o GPT-4o mini cũng được cung cấp ở phiên bản thời gian thực Tình hình hiện tại Chất lượng mô hình Chất lượng hội thoại (độ trễ, khả năng ngắt lời, biểu đạt cảm xúc, v.v.) về cơ bản đã được giải quyết Nhờ sự tiến bộ của mô hình giọng nói thời gian thực của OpenAI và các mô hình khác, đã có những trường hợp cho thấy hiệu năng vượt cả call center/BPO GTM (go-to-market) Sản phẩm agent có thể lan rộng nhanh vì trực tiếp thay thế nhân lực Tuy nhiên, rào cản gia nhập cũng thấp, trong khi các tập đoàn lớn bảo thủ lại có rào cản triển khai cao Năng lực thực thi GTM và giai đoạn sản phẩm tiếp theo (act 2) là yếu tố then chốt của thành công Kiếm tiền Ban đầu chủ yếu là mô hình tính phí theo phút, nhưng do chi phí mô hình giảm mạnh nên áp lực giá đang tăng lên Trong tương lai, nhiều khả năng sẽ xuất hiện mô hình thu phí kết hợp giữa phí nền tảng + tính theo mức sử dụng Cạnh tranh Voice agent cho doanh nghiệp hiện đang cạnh tranh giữa các nền tảng dành cho developer, nền tảng no-code dạng tổng quát, và các giải pháp chuyên biệt theo từng ngành Dự kiến cạnh tranh sẽ còn gay gắt hơn Sự tiến hóa của thị trường Trong nửa cuối năm 2024, thị trường voice agent đã tăng trưởng rất nhanh Nhiều sản phẩm đang có xu hướng bổ sung tính năng giọng nói Ở nhiều lớp của conversational voice stack, hoạt động gọi vốn mới và thu hút khách hàng thực tế đang diễn ra sôi động Đặc biệt, các doanh nghiệp lớn có xu hướng không thay thế toàn bộ công việc gọi điện của con người bằng AI ngay lập tức, mà bắt đầu từ một số loại cuộc gọi nhất định rồi dần mở rộng Cuộc gọi ban đêm/quá tải: AI xử lý những cuộc gọi trước đây thường bị chuyển sang voicemail, nhờ đó có thể thu thập một mức thông tin nhất định và xử lý giao dịch Cuộc gọi outbound mới: Những cuộc gọi trước đây không thực hiện vì hiệu quả kinh tế thấp nay trở nên khả thi, từ đó có thể tạo thêm doanh thu hoặc tiết kiệm chi phí Cuộc gọi "back-office": Có thể tăng hiệu quả bằng cách tự động hóa các tác vụ cần gọi điện tới công ty hoặc cơ quan khác Sự tiến hóa của thị trường - Các trường hợp gọi vốn Công ty mô hình ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI và các công ty khác liên tiếp công bố những vòng gọi vốn lớn từ seed đến series B Nền tảng tổng quát Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland và các công ty khác đã huy động vốn từ series A đến C Các công ty như 11x, Decagon, Sierra, Artisan tập trung vào những ngành cụ thể (sales, customer support, v.v.) cũng đang được chú ý Các nền tảng dành cho developer như Vapi và Retell AI cũng đã xuất hiện Nền tảng vertical Nhiều startup đã nhận đầu tư trong các lĩnh vực chuyên biệt như y tế, nhân sự, ứng phó khẩn cấp, bao gồm Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad Wayfaster, HappyRobot và các công ty khác cũng đã gọi vốn thành công trong các lĩnh vực như logistics và phỏng vấn Các thị trường vertical quan trọng Những nơi có khả năng triển khai voice agent sớm nhất là các ngành có mức chi tiêu lớn cho call center/BPO Các ngành chính như tài chính, bảo hiểm, B2C, B2B, chính phủ, y tế nhiều khả năng sẽ sở hữu các giải pháp giọng nói riêng của mình Dự kiến các nhà sáng lập sẽ tích cực thử sức ở các lĩnh vực dưới đây Financial services (ví dụ: thu hồi nợ) Insurance (chăm sóc khách hàng và back-office) Government Support services (ứng đáp khách hàng phức tạp như hỗ trợ IT cần kiến thức chuyên môn) Ngay cả ngoài phạm vi call center, cũng đã xác nhận có nhu cầu sẵn sàng chi trả cho AI voice agent dùng cho coaching/training nhắm tới các vị trí có mức lương cao Voice agent mang tính thực tế có thể đóng vai trò như một "simulator", giúp cải thiện đáng kể năng lực làm việc Qua đó có thể thay thế chi phí nhân sự như sales coach hoặc phần mềm hiện có nhưng kém hiệu quả Vertical đáng chú ý - Xu hướng các công ty YC Số lượng công ty voice agent tham gia YC đang tăng nhanh B2B (~69%) và y tế (~18%) là hai nhóm chủ đạo; trong các phân ngành B2B, có nhiều startup liên quan đến fintech và customer support Lĩnh vực y tế được chia thành front-office (hướng tới bệnh nhân) và back-office (hướng tới nhà thuốc, công ty bảo hiểm, v.v.) Nhìn chung, các startup đang cố gắng giải quyết nhiều bài toán của các ngành khác nhau bằng voice agent Những gì chúng tôi đang tìm kiếm Các ngành mà điện thoại là kênh cốt lõi, hoặc được tối ưu cho điện thoại xét theo góc độ quy định hay hiệu quả Điện thoại là phương thức ưu tiên để demo cho khách hàng (ví dụ: logistics) Hoặc do quy định mà cuộc gọi hiệu quả hơn (ví dụ: thu hồi nợ) Hoặc là lĩnh vực có tỷ lệ thành công cao hơn các cách tiếp cận khác (ví dụ: y tế) Cấu trúc cuộc gọi phải rõ ràng và có thể đo lường được Rõ ràng về các data point cần thu thập hoặc thông tin cần truyền đạt Dễ đo lường kết quả, để doanh nghiệp có thể cân nhắc áp dụng AI voice agent mà không quá e ngại Phải đạt được mức giảm hơn 50% chi phí nhân sự đồng thời tạo ra kết quả tương đương con người Những kịch bản mà nhân sự bị thay thế là rõ ràng hoặc có thể tái phân bổ sẽ dễ triển khai hơn Nội bộ doanh nghiệp có thể có sự hoài nghi với AI, nên ROI phải thật sự lớn Cuộc gọi là vấn đề "sống còn" với khách hàng, nhưng phía thực hiện hoặc tiếp nhận cuộc gọi lại có thể chấp nhận rủi ro thất bại Thường bắt đầu từ các cuộc gọi ban đêm, cuộc gọi overflow hoặc các cuộc gọi "subprime" AI dễ thâm nhập hơn ở những nơi có tiêu chuẩn hiệu năng thấp Hiệu quả tối ưu hóa cuộc gọi đặc biệt lớn ở các lĩnh vực tạo doanh thu trực tiếp (ví dụ: đặt chỗ mới, thanh toán) hoặc có chi phí vận hành cao (ví dụ: drive-thru) Để tiếp cận SMB/mid-market, cần có khả năng tích hợp VoIP đơn giản hoặc tự thiết lập Với enterprise, độ phức tạp tích hợp ban đầu càng cao thì vừa tạo rào cản gia nhập, vừa trở thành lợi thế cạnh tranh nếu được xây dựng tốt Hoặc có thể bắt đầu dễ dàng với độ phức tạp tích hợp thấp, rồi dần mở rộng Nhìn chung, thị trường rất quan tâm tới các giải pháp vừa đạt tỷ lệ thành công cao vừa tạo ra mức tiết kiệm chi phí lớn Nghiên cứu trường hợp - Phỏng vấn bằng giọng nói AI Ban đầu, việc áp dụng AI giọng nói vào phỏng vấn tuyển dụng vốn có độ phức tạp và độ nhạy cao có vẻ khá bất ngờ Tuy nhiên, ngành staffing đã ghi nhận hiệu quả lớn khi xử lý các cuộc phỏng vấn quy mô lớn và lặp lại Có thể tiến hành phỏng vấn nhanh hơn và nhất quán hơn mà không làm tổn hại đến trải nghiệm ứng viên AI có thể thực hiện phỏng vấn ngay lập tức khi cần, hoặc đánh giá ứng viên mà không bị cản trở bởi ngôn ngữ/giọng địa phương Đặc biệt với các vị trí kỹ thuật, có phản hồi rằng AI có thể đánh giá chính xác hơn so với nhân sự HR thông thường Doanh nghiệp cảm nhận được lợi ích như tăng tỷ lệ qua vòng phỏng vấn và rút ngắn quá trình matching ứng viên

(gamma.app)

15 điểm bởi xguru 2025-02-06 | 1 bình luận | Chia sẻ qua WhatsApp

Thesis của chúng tôi - "Tại sao là giọng nói?"

Giọng nói đóng vai trò là một bước đột phá mạnh mẽ về mặt khả năng ứng dụng AI
Từ góc độ doanh nghiệp, AI cho phép thay thế nhân lực và hỗ trợ khách hàng 24/7
Từ góc độ người dùng, có dự báo rằng giọng nói sẽ trở thành giao diện AI chủ đạo
Hiện tại là thời điểm hạ tầng AI giọng nói đã phần nào ổn định, và giọng nói bắt đầu được ứng dụng nghiêm túc trong nhiều loại ứng dụng khác nhau
Có quan điểm cho rằng khi hiệu năng mô hình được cải thiện, giọng nói sẽ không còn là bản thân sản phẩm mà sẽ hoạt động như một "wedge" để thâm nhập thị trường

Những điều mới đã được công bố từ trước đến nay

Tháng 5/2024: OpenAI ra mắt GPT-4o voice với khả năng phản hồi giọng nói theo thời gian thực, Cartesia công bố Sonic
Tháng 6/2024: Character giới thiệu tính năng gọi thoại ở bản beta, Apple công bố tích hợp ChatGPT vào Siri
Tháng 7/2024: OpenAI triển khai Advanced Voice, Speechmatics công bố mô hình Flow
Tháng 8/2024: Amazon tích hợp Claude vào Alexa, Meta cung cấp bạn đồng hành AI sử dụng giọng nói người nổi tiếng
Tháng 9/2024: NotebookLM gây chú ý với Audio Overview, PlayHT công bố mô hình 2.0
Tháng 10/2024: OpenAI ra mắt API thời gian thực, Kyutai công bố mô hình Moshi
Tháng 11/2024: ElevenLabs ra mắt Conversational AI, NVIDIA công bố mô hình Fugatto, Gemini Live phát hành ứng dụng thời gian thực
Tháng 12/2024: ChatGPT Advanced Voice Mode được tích hợp tìm kiếm Internet, 1-800-CHATGPT ra mắt và thu hút chú ý

Điều gì đã thay đổi?

Hạ tầng mô hình đã được đơn giản hóa, và các voice agent có độ trễ thấp cùng hiệu năng cao đã xuất hiện
Các mô hình hội thoại mới trong 6 tháng gần đây là động lực lớn cho sự cải thiện hiệu năng này
Chi phí cũng đang giảm; vào tháng 12/2024, OpenAI đã giảm mạnh giá API thời gian thực của GPT-4o
GPT-4o mini cũng được cung cấp ở phiên bản thời gian thực

Tình hình hiện tại

Chất lượng mô hình
- Chất lượng hội thoại (độ trễ, khả năng ngắt lời, biểu đạt cảm xúc, v.v.) về cơ bản đã được giải quyết
- Nhờ sự tiến bộ của mô hình giọng nói thời gian thực của OpenAI và các mô hình khác, đã có những trường hợp cho thấy hiệu năng vượt cả call center/BPO
GTM (go-to-market)
- Sản phẩm agent có thể lan rộng nhanh vì trực tiếp thay thế nhân lực
- Tuy nhiên, rào cản gia nhập cũng thấp, trong khi các tập đoàn lớn bảo thủ lại có rào cản triển khai cao
- Năng lực thực thi GTM và giai đoạn sản phẩm tiếp theo (act 2) là yếu tố then chốt của thành công
Kiếm tiền
- Ban đầu chủ yếu là mô hình tính phí theo phút, nhưng do chi phí mô hình giảm mạnh nên áp lực giá đang tăng lên
- Trong tương lai, nhiều khả năng sẽ xuất hiện mô hình thu phí kết hợp giữa phí nền tảng + tính theo mức sử dụng
Cạnh tranh
- Voice agent cho doanh nghiệp hiện đang cạnh tranh giữa các nền tảng dành cho developer, nền tảng no-code dạng tổng quát, và các giải pháp chuyên biệt theo từng ngành
- Dự kiến cạnh tranh sẽ còn gay gắt hơn

Sự tiến hóa của thị trường

Trong nửa cuối năm 2024, thị trường voice agent đã tăng trưởng rất nhanh
Nhiều sản phẩm đang có xu hướng bổ sung tính năng giọng nói
Ở nhiều lớp của conversational voice stack, hoạt động gọi vốn mới và thu hút khách hàng thực tế đang diễn ra sôi động
Đặc biệt, các doanh nghiệp lớn có xu hướng không thay thế toàn bộ công việc gọi điện của con người bằng AI ngay lập tức, mà bắt đầu từ một số loại cuộc gọi nhất định rồi dần mở rộng
- Cuộc gọi ban đêm/quá tải: AI xử lý những cuộc gọi trước đây thường bị chuyển sang voicemail, nhờ đó có thể thu thập một mức thông tin nhất định và xử lý giao dịch
- Cuộc gọi outbound mới: Những cuộc gọi trước đây không thực hiện vì hiệu quả kinh tế thấp nay trở nên khả thi, từ đó có thể tạo thêm doanh thu hoặc tiết kiệm chi phí
  - Cuộc gọi "back-office": Có thể tăng hiệu quả bằng cách tự động hóa các tác vụ cần gọi điện tới công ty hoặc cơ quan khác

Sự tiến hóa của thị trường - Các trường hợp gọi vốn

Công ty mô hình
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI và các công ty khác liên tiếp công bố những vòng gọi vốn lớn từ seed đến series B
Nền tảng tổng quát
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland và các công ty khác đã huy động vốn từ series A đến C
- Các công ty như 11x, Decagon, Sierra, Artisan tập trung vào những ngành cụ thể (sales, customer support, v.v.) cũng đang được chú ý
- Các nền tảng dành cho developer như Vapi và Retell AI cũng đã xuất hiện
Nền tảng vertical
- Nhiều startup đã nhận đầu tư trong các lĩnh vực chuyên biệt như y tế, nhân sự, ứng phó khẩn cấp, bao gồm Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad
- Wayfaster, HappyRobot và các công ty khác cũng đã gọi vốn thành công trong các lĩnh vực như logistics và phỏng vấn

Các thị trường vertical quan trọng

Những nơi có khả năng triển khai voice agent sớm nhất là các ngành có mức chi tiêu lớn cho call center/BPO
Các ngành chính như tài chính, bảo hiểm, B2C, B2B, chính phủ, y tế nhiều khả năng sẽ sở hữu các giải pháp giọng nói riêng của mình
Dự kiến các nhà sáng lập sẽ tích cực thử sức ở các lĩnh vực dưới đây
- Financial services (ví dụ: thu hồi nợ)
- Insurance (chăm sóc khách hàng và back-office)
- Government
- Support services (ứng đáp khách hàng phức tạp như hỗ trợ IT cần kiến thức chuyên môn)
Ngay cả ngoài phạm vi call center, cũng đã xác nhận có nhu cầu sẵn sàng chi trả cho AI voice agent dùng cho coaching/training nhắm tới các vị trí có mức lương cao
- Voice agent mang tính thực tế có thể đóng vai trò như một "simulator", giúp cải thiện đáng kể năng lực làm việc
- Qua đó có thể thay thế chi phí nhân sự như sales coach hoặc phần mềm hiện có nhưng kém hiệu quả

Vertical đáng chú ý - Xu hướng các công ty YC

Số lượng công ty voice agent tham gia YC đang tăng nhanh
B2B (~69%) và y tế (~18%) là hai nhóm chủ đạo; trong các phân ngành B2B, có nhiều startup liên quan đến fintech và customer support
Lĩnh vực y tế được chia thành front-office (hướng tới bệnh nhân) và back-office (hướng tới nhà thuốc, công ty bảo hiểm, v.v.)
Nhìn chung, các startup đang cố gắng giải quyết nhiều bài toán của các ngành khác nhau bằng voice agent

Những gì chúng tôi đang tìm kiếm

Các ngành mà điện thoại là kênh cốt lõi, hoặc được tối ưu cho điện thoại xét theo góc độ quy định hay hiệu quả
- Điện thoại là phương thức ưu tiên để demo cho khách hàng (ví dụ: logistics)
- Hoặc do quy định mà cuộc gọi hiệu quả hơn (ví dụ: thu hồi nợ)
- Hoặc là lĩnh vực có tỷ lệ thành công cao hơn các cách tiếp cận khác (ví dụ: y tế)
Cấu trúc cuộc gọi phải rõ ràng và có thể đo lường được
- Rõ ràng về các data point cần thu thập hoặc thông tin cần truyền đạt
- Dễ đo lường kết quả, để doanh nghiệp có thể cân nhắc áp dụng AI voice agent mà không quá e ngại
Phải đạt được mức giảm hơn 50% chi phí nhân sự đồng thời tạo ra kết quả tương đương con người
- Những kịch bản mà nhân sự bị thay thế là rõ ràng hoặc có thể tái phân bổ sẽ dễ triển khai hơn
- Nội bộ doanh nghiệp có thể có sự hoài nghi với AI, nên ROI phải thật sự lớn
Cuộc gọi là vấn đề "sống còn" với khách hàng, nhưng phía thực hiện hoặc tiếp nhận cuộc gọi lại có thể chấp nhận rủi ro thất bại
- Thường bắt đầu từ các cuộc gọi ban đêm, cuộc gọi overflow hoặc các cuộc gọi "subprime"
- AI dễ thâm nhập hơn ở những nơi có tiêu chuẩn hiệu năng thấp
Hiệu quả tối ưu hóa cuộc gọi đặc biệt lớn ở các lĩnh vực tạo doanh thu trực tiếp (ví dụ: đặt chỗ mới, thanh toán) hoặc có chi phí vận hành cao (ví dụ: drive-thru)
Để tiếp cận SMB/mid-market, cần có khả năng tích hợp VoIP đơn giản hoặc tự thiết lập
Với enterprise, độ phức tạp tích hợp ban đầu càng cao thì vừa tạo rào cản gia nhập, vừa trở thành lợi thế cạnh tranh nếu được xây dựng tốt
- Hoặc có thể bắt đầu dễ dàng với độ phức tạp tích hợp thấp, rồi dần mở rộng
Nhìn chung, thị trường rất quan tâm tới các giải pháp vừa đạt tỷ lệ thành công cao vừa tạo ra mức tiết kiệm chi phí lớn

Nghiên cứu trường hợp - Phỏng vấn bằng giọng nói AI

Ban đầu, việc áp dụng AI giọng nói vào phỏng vấn tuyển dụng vốn có độ phức tạp và độ nhạy cao có vẻ khá bất ngờ
Tuy nhiên, ngành staffing đã ghi nhận hiệu quả lớn khi xử lý các cuộc phỏng vấn quy mô lớn và lặp lại
Có thể tiến hành phỏng vấn nhanh hơn và nhất quán hơn mà không làm tổn hại đến trải nghiệm ứng viên
AI có thể thực hiện phỏng vấn ngay lập tức khi cần, hoặc đánh giá ứng viên mà không bị cản trở bởi ngôn ngữ/giọng địa phương
Đặc biệt với các vị trí kỹ thuật, có phản hồi rằng AI có thể đánh giá chính xác hơn so với nhân sự HR thông thường
Doanh nghiệp cảm nhận được lợi ích như tăng tỷ lệ qua vòng phỏng vấn và rút ngắn quá trình matching ứng viên

1 bình luận

xguru 2025-02-06

Mọi điều a16z tổng hợp về AI Voice Agent

a16z: Hiện trạng của AI Voice Agent - 2025

Thesis của chúng tôi - "Tại sao là giọng nói?"

Những điều mới đã được công bố từ trước đến nay

Điều gì đã thay đổi?

Tình hình hiện tại

Chất lượng mô hình

GTM (go-to-market)

Kiếm tiền

Cạnh tranh

Sự tiến hóa của thị trường

Sự tiến hóa của thị trường - Các trường hợp gọi vốn

Công ty mô hình

Nền tảng tổng quát

Nền tảng vertical

Các thị trường vertical quan trọng

Vertical đáng chú ý - Xu hướng các công ty YC

Những gì chúng tôi đang tìm kiếm

Nghiên cứu trường hợp - Phỏng vấn bằng giọng nói AI

Bài viết liên quan

1 bình luận