Mọi điều a16z tổng hợp về AI Voice Agent
(a16z.com)- Nhờ AI tạo sinh, trong tương lai con người sẽ không cần phải gọi điện thoại nữa
- Con người sẽ chỉ dành thời gian cho các cuộc gọi khi chúng thực sự có giá trị
Lợi ích dành cho doanh nghiệp
- Giảm thời gian và chi phí nhân sự do người gọi là con người gây ra
- Có thể tái phân bổ nguồn lực để tăng tạo doanh thu
- Giảm rủi ro nhờ trải nghiệm khách hàng được chuẩn hóa và nhất quán hơn
Lợi ích dành cho người tiêu dùng
- Voice agent có thể cung cấp dịch vụ ở mức độ như con người mà không cần trả tiền hoặc phải "ghép nối" với người thật
- Hiện tại bao gồm nhà trị liệu, huấn luyện viên, bạn đồng hành, v.v.
- Trong tương lai nhiều khả năng sẽ bao trùm những trải nghiệm rộng hơn rất nhiều được xây dựng xoay quanh giọng nói
- Cũng như phần lớn phần mềm tiêu dùng khác, rất khó dự đoán ai sẽ là "người chiến thắng"
Cuộc gọi điện thoại là API để giao tiếp với thế giới, và AI đang đưa điều đó lên một tầm cao mới
Những nơi có vẻ đang tồn tại cơ hội
- Mỗi tầng như hạ tầng, giao diện người dùng tiêu dùng, hay agent cho doanh nghiệp đều có cơ hội rất lớn
- Với voice agent B2C và B2B, có một số giả thuyết về những sản phẩm mới nổi thú vị nhất:
Các đặc điểm chính của voice agent B2B và B2C
- Built to scale (được xây dựng để mở rộng)
- Độ trễ và trải nghiệm hội thoại vẫn chưa được giải quyết hoàn toàn
- Đang tìm kiếm những nhà sáng lập có quan điểm rõ ràng về việc xây dựng agent
- Đang nỗ lực tối đa hóa những yếu tố quan trọng nhất của agent như tốc độ, độ chính xác, tông giọng/cảm xúc, v.v.
- Vertically focused (tập trung theo ngành dọc)
- Đây có thể là các agent kiểu “performer” phụ thuộc vào mô hình được tinh chỉnh riêng cho một use case cụ thể và tích hợp chặt chẽ
- Cách này dễ xây dựng, đưa ra thị trường và mở rộng thành công hơn
- Realistic in scope (thực tế về phạm vi)
- Việc giao hoàn toàn các cuộc gọi quan trọng cho AI là một thách thức lớn
- Chúng tôi kỳ vọng các công ty voice agent sẽ làm những việc chưa thể "mở rộng" trong ngắn hạn
- Điều này có thể bao gồm tinh chỉnh theo từng khách hàng hoặc chuyển cuộc gọi sang agent con người ở bước cuối
Stack để xây dựng voice agent
- Để voice agent hoạt động, cần có:
- Thu thập giọng nói của con người (ASR)
- Xử lý đầu vào này bằng LLM và trả về đầu ra
- Nói lại cho con người nghe (TTS)
- Các mô hình đa phương thức mới như GPT-4o có thể thay đổi cấu trúc của stack bằng cách "chạy" đồng thời nhiều lớp này trong một mô hình duy nhất
- Điều này có thể giảm độ trễ và chi phí, đồng thời mang lại giao diện hội thoại tự nhiên hơn
- Nhiều agent vẫn chưa đạt được chất lượng thật sự giống con người với stack tổng hợp như bên dưới
- Ở một số công ty/cách tiếp cận, LLM hoặc một chuỗi LLM xử lý luồng hội thoại và cảm xúc. Trong các trường hợp khác, có các engine riêng để thêm cảm xúc, quản lý ngắt lời, v.v.
- Các nhà cung cấp voice "full stack" cung cấp tất cả những thứ này ở một nơi.
- Ứng dụng tiêu dùng (B2C) và doanh nghiệp (B2B) nằm phía trên stack này.
- Ngay cả khi dùng nhà cung cấp bên thứ ba, ứng dụng vẫn (thường) cắm thêm LLM tùy biến, vốn thường cũng đóng vai trò là engine hội thoại.
Full stack vs. tự lắp ghép: so sánh các yếu tố chính
- Nhà sáng lập voice agent có thể chọn chạy agent trên nền tảng full stack (ví dụ: Retell, Vapi, Bland) hoặc tự lắp ghép stack.
- Có một số yếu tố chính khi đưa ra quyết định này:
- Complexity (độ phức tạp)
- Các bên full stack mang đến cách xây dựng voice agent đơn giản hơn bằng cách trừu tượng hóa độ phức tạp ở tầng hạ tầng
- Cách này vẫn chừa chỗ cho tùy biến và tinh chỉnh như cắm prompt hoặc tài liệu tri thức (RAG) vào LLM
- Flexibility (tính linh hoạt)
- Những nhà sáng lập xây dựng cho ngành dọc và use case cụ thể nhiều khả năng sẽ muốn có mức linh hoạt tối đa về cách mỗi lớp trong stack hoạt động/chạy
- Điều này cũng giúp giảm độ trễ tối đa
- Cost (chi phí)
- Nhà cung cấp full stack có thể tạo thêm một lớp chi phí trên mỗi cuộc gọi, đồng thời cũng có thể đàm phán giá tốt hơn theo sản lượng
- Với voice agent ở quy mô lớn, chênh lệch vài cent mỗi cuộc gọi cũng có thể rất quan trọng
- Control (kiểm soát)
- Khi có sự cố, nhà sáng lập voice agent phải có khả năng theo dõi và xử lý vấn đề ngay lập tức, đặc biệt với các use case nhạy cảm
- Họ cũng có thể cần mức độ quan sát tối đa về cách từng lớp hoạt động
- Điều này dễ làm hơn với stack tự lắp ghép
- Complexity (độ phức tạp)
- Các bên chơi chính trong stack
- Full Stack (full stack) : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (cảm xúc) : hume
- Text to Speech (chuyển văn bản thành giọng nói) : ElevenLabs, Azure
- Speech to Text (chuyển giọng nói thành văn bản) : Deepgram, Whisper, AssemblyAI, Azure
- Streaming (truyền phát) : LiveKit, daily
Góc nhìn của chúng tôi về agent B2B
Sự tiến hóa của AI giọng nói
- Chúng ta đang chuyển từ AI giọng nói 1.0 (phone tree) sang kỷ nguyên AI giọng nói 2.0 (dựa trên LLM)
- Các công ty 2.0 mới bắt đầu xuất hiện trong khoảng 6 tháng trở lại đây
- Các công ty 1.0 hiện có thể chính xác hơn, nhưng về dài hạn, cách tiếp cận 2.0 sẽ mở rộng tốt hơn và chính xác hơn nhiều
Nhu cầu về mô hình chuyên biệt theo ngành dọc
- Sẽ không có một mô hình hay nền tảng ngang nào áp dụng cho mọi loại voice agent doanh nghiệp
- Có một số khác biệt chính theo từng ngành dọc:
- Loại cuộc gọi, tông giọng và cấu trúc
- Tích hợp và quy trình
- GTM và "tính năng sát thủ"
- Điều này có thể dẫn đến sự bùng nổ của các vertical agent có định hướng rất rõ trong UI
- Để làm được điều đó cần một đội ngũ sáng lập có chuyên môn hoặc sự quan tâm sâu sắc trong lĩnh vực đó
Cơ hội gần nhất
- TAM lớn đối với các doanh nghiệp phụ thuộc nhiều vào lao động
- Cơ hội trước mắt lớn nhất có thể nằm ở các ngành:
- Sống còn nhờ việc đặt lịch qua điện thoại
- Đang thiếu hụt lao động nghiêm trọng
- Có độ phức tạp cuộc gọi thấp
- Khi agent ngày càng tinh vi hơn, chúng sẽ có thể xử lý các cuộc gọi phức tạp hơn
Sự tiến hóa của agent B2B
- Quá trình tiến hóa
- IVR (Interactive Voice Response) : mô hình touch-tone truyền thống, trong đó agent đưa cho người tiêu dùng một loạt lựa chọn (1 là bán hàng, 2 là hỗ trợ khách hàng, v.v.) và điều hướng họ tương ứng
- AI 1.0 (Phone Trees) : phiên bản linh hoạt và trực quan hơn của IVR, trong đó người tiêu dùng nói bằng ngôn ngữ tự nhiên và agent cố gắng dẫn dắt thông qua một chuỗi luồng hội thoại
- AI 2.0 (LLMs) : hội thoại tự do, trong đó AI không cố gắng ghép lời nói của con người vào các lựa chọn được định nghĩa sẵn cụ thể
- Nhiều công ty voice agent đang theo đuổi cách tiếp cận theo ngành dọc cho một ngành cụ thể (ví dụ: dịch vụ ô tô) hoặc một loại tác vụ cụ thể (ví dụ: đặt lịch hẹn). Có một vài lý do cho điều này:
- Khó khăn trong thực thi
- Chuẩn chất lượng để giao cuộc gọi cho AI là rất cao, và luồng hội thoại (cũng như backend workflow phía khách hàng) có thể nhanh chóng trở nên phức tạp hoặc rất đặc thù
- Những công ty xây dựng cho các "trường hợp ngoại lệ" của ngành dọc này có khả năng thành công cao hơn (ví dụ: từ vựng riêng mà mô hình tổng quát có thể hiểu sai)
- Quy định và giấy phép
- Một số công ty voice agent phải đối mặt với các hạn chế đặc biệt, chứng nhận cần thiết, v.v.
- Ví dụ điển hình là lĩnh vực y tế (ví dụ: tuân thủ HIPAA), nhưng cũng xuất hiện trong những mảng như sales, nơi có quy định về AI cold calling ở cấp quốc gia
- Tích hợp
- Ở một số danh mục, để triển khai đúng trải nghiệm người dùng (cho cả doanh nghiệp và người tiêu dùng), có thể cần các tích hợp long-tail hoặc tích hợp chuyên biệt. Điều này không đáng để xây nếu không nhằm phục vụ use case cụ thể
- Bước đệm vào phần mềm khác
- Giọng nói có thể tự nhiên đi vào các hành vi khách hàng cốt lõi như đặt lịch, gia hạn, báo giá, v.v.
- Trong một số trường hợp, đây sẽ là bàn đạp để mở rộng sang nền tảng SaaS ngành dọc rộng hơn cho các doanh nghiệp này, đặc biệt khi tệp khách hàng vẫn còn vận hành ngoại tuyến
- Khó khăn trong thực thi
Agent B2B: nơi nhìn thấy cơ hội
Dựa trên LLM - nhưng không nhất thiết phải tự động hóa 100% ngay từ ngày đầu
- "Dạng mạnh" của AI voice agent sẽ là hội thoại hoàn toàn do LLM dẫn dắt, chứ không phải cách tiếp cận IVR hay phone tree
- Tuy nhiên, vì LLM chưa đáng tin 100% trong toàn bộ quá trình, nên với các giao dịch nhạy cảm hơn hoặc lớn hơn, có khả năng (tạm thời) vẫn sẽ có "con người can thiệp"
- Điều này cũng khiến workflow theo từng ngành dọc trở nên đặc biệt quan trọng, vì nó giúp tối đa hóa xác suất thành công đồng thời giảm edge case và giảm thiểu sự can thiệp của con người
Tinh chỉnh mô hình tùy biến vs. prompt theo cách tiếp cận LLM
- Voice agent B2B cần xử lý các cuộc hội thoại chuyên biệt (hoặc theo ngành dọc) mà LLM tổng quát có thể sẽ không đủ tốt
- Nhiều công ty đang tinh chỉnh mô hình theo từng khách hàng (sử dụng vài trăm hoặc vài nghìn điểm dữ liệu ở mức thấp), và có thể suy rộng điều đó thành mô hình nền mặc định cho toàn công ty
- Việc tinh chỉnh tùy biến cho khách hàng doanh nghiệp cũng có thể sẽ tiếp tục
- Lưu ý: một số công ty có thể tinh chỉnh mô hình "tổng quát" (được dùng cho toàn bộ khách hàng) cho use case cụ thể, sau đó prompt theo từng khách hàng
Đội ngũ kỹ thuật có chuyên môn miền
- Xét đến độ phức tạp, nền tảng AI sẵn có sẽ có ích khi xây dựng và mở rộng voice agent B2B chất lượng cao
- Tuy nhiên, việc hiểu cách đóng gói sản phẩm và cắm nêm vào một ngành dọc cũng có thể quan trọng ngang nhau, vì điều đó đòi hỏi chuyên môn miền hoặc ít nhất là sự quan tâm mạnh mẽ
- Không cần bằng tiến sĩ AI để xây dựng và ra mắt voice agent cho doanh nghiệp!
Góc nhìn sắc bén về tích hợp + hệ sinh thái
- Tương tự như nội dung ở trên, người mua trong từng ngành dọc thường có một số tính năng hoặc tích hợp cụ thể mà họ muốn thấy trước khi mua
- Trên thực tế, đây có thể là bằng chứng giúp nâng sản phẩm từ mức "hữu ích" lên mức "kỳ diệu"
- Đây là một lý do nữa khiến việc khởi đầu trong trạng thái khá vertical hóa là hợp lý
Motion "enterprise-grade" hoặc tăng trưởng do sản phẩm dẫn dắt (PLG) mạnh mẽ
- Với các ngành dọc mà doanh thu tập trung đáng kể vào nhóm doanh nghiệp/nhà cung cấp hàng đầu, công ty voice agent có thể bắt đầu từ doanh nghiệp lớn rồi cuối cùng "lan xuống" phân khúc SMB bằng sản phẩm self-service
- Khách hàng SMB rất cần giải pháp này và sẵn sàng thử nhiều lựa chọn, nhưng họ có thể không cung cấp được dữ liệu đủ quy mô/chất lượng để startup tinh chỉnh mô hình lên cấp độ doanh nghiệp
Góc nhìn của chúng tôi về agent B2C
Khác biệt với B2B
- Trong B2B, voice agent chủ yếu thay thế các cuộc gọi hiện có để hoàn thành một tác vụ cụ thể
- Với agent tiêu dùng, người dùng phải chủ động chọn tiếp tục tương tác, điều này khó hơn vì tương tác bằng giọng nói không phải lúc nào cũng tiện
- Điều này đồng nghĩa tiêu chuẩn sản phẩm "cao hơn"
Lĩnh vực ứng dụng đầu tiên
- Lĩnh vực ứng dụng đầu tiên và rõ ràng nhất của voice agent tiêu dùng là dùng AI để thay thế các dịch vụ con người vốn đắt đỏ hoặc khó tiếp cận
- Điều này bao gồm trị liệu, coaching, tutoring và mọi hình thức dựa trên hội thoại có thể hoàn thành từ xa
Khả năng trong tương lai
- Tuy nhiên, chúng tôi tin rằng phép màu thực sự của voice agent B2C vẫn chưa đến!
- Chúng tôi đang tìm kiếm những sản phẩm sử dụng sức mạnh của giọng nói để tạo ra các kiểu "hội thoại" mới chưa từng tồn tại trước đây
- Điều này có thể tái sáng tạo hình thức của các dịch vụ hiện có hoặc tạo ra những dịch vụ hoàn toàn mới
Mô phỏng kết nối mang tính con người
- Với những sản phẩm triển khai UX đúng cách, voice agent mang đến cơ hội thu hút người tiêu dùng ở mức độ mà phần mềm trước đây chưa từng làm được
- Đây là sự mô phỏng kết nối mang tính con người một cách chân thực
- Điều này có thể xuất hiện dưới dạng agent như một sản phẩm độc lập, hoặc như chế độ giọng nói trong một sản phẩm rộng hơn
Sự tiến hóa của agent B2C
- Cho đến nay, các AI voice agent tiêu dùng chiếm ưu thế chủ yếu đến từ các công ty lớn như ChatGPT Voice và ứng dụng Pi của Inflection.
- Có một số lý do khiến giọng nói cho người tiêu dùng xuất hiện chậm hơn:
Lợi thế của các công ty lớn
- Các công ty lớn đã có sẵn kênh phân phối đến người tiêu dùng cũng như các mô hình hàng đầu về độ chính xác, độ trễ, v.v.
- Giọng nói không dễ cung cấp ở quy mô lớn, đặc biệt là khi xét đến việc GPT-4o mới ra mắt gần đây
Khó khăn trong việc hình thành hành vi mới
- Voice agent B2B "cắm" AI vào quy trình sẵn có, trong khi voice agent B2C đòi hỏi người dùng phải chấp nhận hành vi mới
- Điều này có thể đòi hỏi sản phẩm chậm hơn, hoặc mang tính kỳ diệu hơn nhiều
Nhận thức tiêu cực về voice AI hiện có
- Người tiêu dùng có thể không có động lực thử ứng dụng mới vì họ đã bị ảnh hưởng tiêu cực bởi các trải nghiệm sản phẩm như Siri
Các sản phẩm nền tảng rộng đã đáp ứng use case cơ bản
- Các sản phẩm nền tảng rộng thường đã có thể đáp ứng các use case cơ bản của voice AI như tutoring, companionship, v.v.
- Các startup voice B2C hiện đang ở giai đoạn bắt đầu tạo ra những use case hoặc trải nghiệm mà ChatGPT, Pi, v.v. sẽ không xử lý
Agent B2C: nơi nhìn thấy cơ hội
Quan điểm mạnh mẽ về lý do cần có giọng nói
- Chúng tôi hào hứng với những sản phẩm và nhà sáng lập có quan điểm rõ ràng về cách giọng nói mang lại giá trị độc đáo cho sản phẩm
- Không phải chỉ đơn giản là "giọng nói vì giọng nói"
- Trong nhiều trường hợp, giao diện giọng nói thực ra còn bất tiện hơn giao diện văn bản trong việc tiêu thụ và trích xuất thông tin
Quan điểm mạnh mẽ về lý do cần giọng nói thời gian thực
- Giọng nói vốn đã khó tiêu thụ, còn giọng nói thời gian thực lại càng khó hơn (so với voice message bất đồng bộ)
- Chúng tôi hào hứng với những nhà sáng lập có quan điểm rõ ràng về lý do sản phẩm của họ phải được xây dựng xoay quanh hội thoại thời gian thực
- Có thể là vì nhu cầu đồng hành giống con người, môi trường luyện tập, v.v.
Không tương đồng với "sản phẩm" trước thời AI
- Chúng tôi nghi ngờ rằng dạng mạnh của sản phẩm sẽ không chỉ là bản chuyển thẳng các cuộc hội thoại người-với-người trước đây sang AI voice agent để thay thế nhà cung cấp là con người
- Thứ nhất, rất khó đạt tới đúng chuẩn đó
- Quan trọng hơn, AI tạo ra cơ hội truyền tải cùng một giá trị theo cách tốt hơn (hiệu quả hơn, thú vị hơn)
Vertical hóa nơi chất lượng mô hình không quyết định người thắng cuộc
- Các sản phẩm AI tiêu dùng phổ thông lớn (ChatGPT, Pi, Claude) đều có chế độ giọng nói chất lượng cao
- Chúng có thể tham gia một cách có ý nghĩa vào nhiều kiểu hội thoại và tương tác
- Vì tự lưu trữ mô hình và stack riêng, họ nhiều khả năng sẽ thắng về độ trễ và luồng hội thoại trong ngắn hạn
Chúng tôi kỳ vọng startup sẽ thành công theo các cách như:
- Điều chỉnh hoặc tinh chỉnh cho một kiểu hội thoại cụ thể, hoặc
- Xây dựng UI mang lại nhiều ngữ cảnh và giá trị hơn cho trải nghiệm voice agent
- (ví dụ: theo dõi tiến trình theo thời gian, điều hướng cuộc hội thoại/trải nghiệm theo một cách có chủ đích)
1 bình luận
Tôi đã có dịp quan sát cận cảnh đội integration của một công ty enterprise, và có thể thấy theo thời gian thực một dự án rất giống với nội dung trong bài.
Mục tiêu ban đầu là tự động hóa CS thông qua AWS Connect, nhưng rồi họ còn xử lý phân tán lưu lượng, tham gia lên kế hoạch dịch vụ đặc biệt cho nhóm VVIP... Việc nhìn quy mô dần mở rộng cũng khá thú vị.
Thành ra, nói thật thì những khách hàng không mang lại nhiều doanh thu sẽ được bot trả lời tự động xử lý tối đa, còn những khách hàng có số tiền ký quỹ lớn thì các human agent sẽ cố gắng liên hệ trực tiếp nhanh nhất có thể. Chắc cũng là điều khó tránh khỏi thôi haha