6 điểm bởi GN⁺ 2025-08-29 | 1 bình luận | Chia sẻ qua WhatsApp
  • Cách con người sử dụng máy tính trong thời gian dài bị giới hạn ở tương tác cơ học xoay quanh nhấp chuột và nhập liệu, nhưng với sự xuất hiện của thiết bị di động và trợ lý giọng nói, nó đã mở rộng sang các hình thức tương tác tự nhiên hơn
  • Giờ đây, avatar/replica AI kết hợp đa phương thức, trí tuệ cảm xúc và cá nhân hóa đang xuất hiện, hướng tới vai trò gần với đồng nghiệp hay cộng tác viên hơn là chỉ một công cụ
  • Sự phát triển của hạ tầng video thời gian thực, tái tạo khuôn mặt 3D, hệ thống nhận thức, công nghệ giọng nói và LLM đang cho phép hiện thực hóa các avatar sống động và thông minh
  • Chúng tăng cường tính gắn kết trong mối quan hệ với con người thông qua bộ nhớ liên tục, đồng cảm cảm xúc, thấu hiểu trí tuệcá nhân hóa sâu, đồng thời đang được ứng dụng trong nhiều ngành khác nhau
  • Giao diện trong tương lai sẽ vượt ra ngoài những màn hình đơn thuần để phát triển thành các hệ thống có hiểu ngữ cảnh, thích ứng hành vi và trí tuệ cảm xúc, và điều này được kỳ vọng sẽ thay đổi bản chất của mối quan hệ người-máy tính

Vì sao là bây giờ: kỷ nguyên mới của tương tác người-máy

  • Tương tác người-máy đang phát triển vượt ra khỏi cách thức nhấp chuột, gõ phím và điều hướng màn hình truyền thống, chuyển sang trọng tâm là đa phương thứctrí tuệ cảm xúc
    • Sự phổ biến của thiết bị di động đã đưa tương tác dựa trên giọng nói vào thực tế, với những trợ lý như Siri cho thấy khả năng của các cuộc hội thoại tự nhiên
    • Hiện nay, avatar AIbản sao AI đang tiến hóa vượt ra ngoài vai trò công cụ để trở thành avatar đóng vai trò đồng nghiệp, cộng tác viên và bạn đồng hành
  • Avatar AI có thể nhìn vào mắt theo thời gian thực, mỉm cười, ghi nhớ sở thích của người dùng và phản ứng với cảm xúc
    • Chúng đang phát triển thành những thực thể sống động mang tính động và giàu khả năng biểu đạt, thay vì chỉ là avatar tĩnh
    • Được sử dụng trong nhiều ngành như coaching, y tế, chăm sóc người cao tuổi và hỗ trợ khách hàng

Sự hòa hợp hoàn hảo giữa công nghệ và thay đổi hành vi

  • Sự phát triển của chatbot dựa trên văn bản và trợ lý giọng nói đang cho phép hỗ trợ cá nhân hóa theo thời gian thực và tương tác rảnh tay
    • Avatar AI vận hành như những cộng sự có đồng cảm, ngữ cảnh và cá tính, vượt xa hỗ trợ đơn thuần
  • Con người về bản chất luôn tìm kiếm kết nối và quan hệ, vì vậy họ kỳ vọng các công cụ số tiến hóa từ tương tác mang tính giao dịch sang tương tác định hướng quan hệ
    • Sự hội tụ của thay đổi công nghệ và hành vi đã khiến avatar và bản sao AI trở nên vừa khả thi vừa đáng mong muốn
  • Đổi mới công nghệ và mức độ chấp nhận của xã hội đang đồng thời hội tụ, khiến nhu cầu đối với avatar AI tăng bùng nổ

Đổi mới trong tech stack

  • Hạ tầng video thời gian thực: Các công nghệ như WebRTC hỗ trợ hội nghị video độ trễ thấp, cho phép tương tác trực quan mượt mà trong môi trường phân tán
  • Tái tạo khuôn mặt 3D: Tavus, HeyGen và các công ty khác có thể tạo ra bản sao khuôn mặt chất lượng cao và lip-sync chính xác chỉ từ video ngắn
  • Hệ thống nhận thức: Theo dõi cử chỉ, vi biểu cảm, giao tiếp bằng mắt và chuyển động theo thời gian thực để phản ứng với tín hiệu thị giác. Có thể hiểu môi trường xung quanh và đưa ra phản hồi phù hợp với ngữ cảnh
  • Công nghệ giọng nói: TTS/STT từ Deepgram, ElevenLabs và các công ty khác hỗ trợ các cuộc hội thoại tự nhiên và tức thời
    • Công nghệ giọng nói thời gian thực không độ trễ cho phép tạo ra các cuộc trò chuyện linh hoạt và giàu biểu đạt
  • Mô hình ngôn ngữ: LLM cho phép hiểu ngữ cảnh phong phú và phản hồi thông minh, cũng như hội thoại chuyên biệt cho từng lĩnh vực cụ thể
    • Thoát khỏi tri thức hạn chế được lập trình sẵn để có thể đáp lại một cách sâu sắc và cân nhắc

Bộ nhớ liên tục

  • Có khả năng theo dõi các cuộc hội thoại dài trong cùng một phiên và duy trì ngữ cảnh
  • Ngay cả giữa các phiên, chúng vẫn nhớ các mục tiêu và sở thích trước đó để cung cấp hội thoại được cá nhân hóa
  • Tiến hóa vượt khỏi phản hồi đơn lẻ để trở thành AI đồng hành dài hạn

Tính cách và trí tuệ cảm xúc

  • Thể hiện các cảm xúc tích cực như sự ấm áp, đồng cảm và khích lệ để tạo ra trải nghiệm lấy quan hệ làm trung tâm
  • Bộc lộ các trạng thái cảm xúc tinh tế thông qua giọng điệu, thời điểm và biểu cảm, từ đó hình thành niềm tin mang tính con người

Thấu hiểu trí tuệ

  • Nắm bắt ngữ cảnh và suy luận tức thời như con người
  • Phản ánh tri thức chuyên ngành trong các lĩnh vực như y tế, tài chính và giáo dục, đồng thời đáp ứng được thông tin mới nhất

Cá nhân hóa sâu

  • Vượt ra ngoài việc tùy biến UI đơn thuần để tối ưu hóa theo từng cá nhân cả về giọng nói, ngoại hình và cách phản hồi
  • Cung cấp tương tác thông minh và được cá nhân hóa bằng cách kết nối với các cuộc trò chuyện trước đó cũng như công cụ bên ngoài và hệ thống tri thức
  • Hàng chục triệu người dùng đã trải nghiệm điều này trên Character.AI, Delphi và các nền tảng khác

Lớp hạ tầng: ngăn xếp hiện diện mới

  • Tavus:
    • Định hướng nhà phát triển, dựa trên API, hỗ trợ giao tiếp video tùy biến theo thời gian thực
    • Tích hợp video hội thoại vào các workflow như onboarding, telehealth và bán hàng bất đồng bộ
  • Synthesia:
    • Chuyển văn bản thành video chất lượng studio bằng hơn 140 ngôn ngữ để tạo video avatar AI
    • Các tập đoàn lớn như Zoom, Reuters, Heineken sử dụng cho bán hàng, marketing, localization, học tập và phát triển
  • Khác: Nhiều công cụ hạ tầng video AI khác đang xuất hiện như Sieve, Descript, TwelveLabs và Sora của OpenAI
  • Tăng trưởng bùng nổ trong 2 năm gần đây đã hình thành một hệ sinh thái mà cả nhà sáng tạo, nhà phát triển và doanh nghiệp đều có thể tận dụng

Triển vọng phía trước: một thế giới số mang tính con người hơn

  • Giao diện sẽ rời xa những màn hình dựa trên pixel để chuyển sang các hệ thống thích ứng dựa trên hiểu ngữ cảnh, trí tuệ cảm xúc và bộ nhớ
  • AI xuất sắc không chỉ phản hồi đơn thuần mà còn thực hiện ứng đáp trực giác và phản ứng phù hợp theo từng tình huống
  • Thông qua các thiết bị đeo như Meta Glasses, tương tác thường trực và cá nhân hóa sẽ trở nên khả thi ngay trong đời thực
  • Thế hệ HCI tiếp theo được kỳ vọng sẽ tái định nghĩa chính mối quan hệ người-máy, xoay quanh trải nghiệm nhập vai, hiện thân và mang tính cá nhân

1 bình luận

 
bus710 2025-08-30

Ở một mức độ nào đó thì chuyện này đã như vậy rồi
Nhưng công nghệ kiểu này càng phát triển, khoảng cách giữa con người với nhau có lẽ sẽ càng xa hơn.