2 điểm bởi GN⁺ 2024-10-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hassaan và Quinn, đồng sáng lập Tavus, giới thiệu công ty nghiên cứu AI và nền tảng phát triển video API
  • Từ năm 2020, họ đã phát triển các mô hình video AI cho "digital twin" hoặc "avatar"
  • Chia sẻ những thách thức trong việc xây dựng giao diện video AI để trò chuyện chân thực với con người

Thách thức

  • Để video hội thoại hoạt động hiệu quả, cần độ trễ rất thấp và khả năng nhận biết ngữ cảnh hội thoại
  • Các cuộc trò chuyện nhanh giữa bạn bè thường có khoảng 250ms giữa các lượt phát biểu, nhưng các chủ đề phức tạp hoặc cuộc trò chuyện với người mới cần thêm thời gian "suy nghĩ"
  • Độ trễ dưới 1000ms giúp cuộc trò chuyện trở nên chân thực

Quyết định kiến trúc

  • Cân bằng giữa độ trễ, khả năng mở rộng và chi phí là một thách thức lớn
  • Họ đã phải xây dựng lại từ đầu để giảm độ trễ
  • Đồng thời phải giảm chi phí tính toán trong khi vẫn hỗ trợ hàng nghìn cuộc trò chuyện cùng lúc

Giai đoạn phát triển ban đầu

  • Trong giai đoạn đầu, mỗi cuộc trò chuyện phải chạy trên một H100 riêng biệt
  • Điều này không thể mở rộng và rất tốn kém

Phát triển mô hình Phoenix-2

  • Họ đã phát triển một mô hình mới, Phoenix-2, với nhiều cải tiến
  • Chuyển từ backbone dựa trên NeRF sang Gaussian Splatting để có thể tạo khung hình nhanh hơn thời gian thực
  • Tối ưu hóa bộ nhớ và việc sử dụng lõi GPU để có thể chạy trên phần cứng cấu hình thấp
  • Cũng áp dụng các phương pháp khác để tiết kiệm thời gian và chi phí như streaming so với batching, song song hóa tiến trình

Tối ưu hóa

  • Mỗi thành phần (vision, ASR, LLM, TTS, tạo video) đều phải được tối ưu hóa ở mức siêu nhanh
  • Vấn đề lớn nhất là LLM
  • Dù tốc độ token mỗi giây (t/s) nhanh, nếu thời gian tới token đầu tiên (ttft) chậm thì vẫn là vấn đề
  • Hầu hết các nhà cung cấp đều quá chậm

Phát hiện kết thúc lượt nói

  • Việc phát hiện khi người dùng kết thúc phát biểu là rất khó
  • Giải pháp cơ bản là dùng khoảng thời gian im lặng sau lời nói để "quyết định" lượt nói đã kết thúc, nhưng điều này làm tăng độ trễ
  • Điều quan trọng là canh thời điểm phù hợp để tác nhân AI không ngắt lời người dùng

Kết quả

  • Nhờ các tối ưu hóa này, độ trễ đã được giảm từ 3-5 giây xuống dưới 1 giây (tối đa 600ms)
  • Đạt được độ trễ dưới 1 giây ngay cả trên phần cứng cấu hình thấp
  • Có nhiều khách hàng như Delphi, và các cuộc trò chuyện với digital twin kéo dài từ vài phút đến tối đa 4 giờ

Tóm tắt của GN⁺

  • Mô hình video AI của Tavus hướng tới các cuộc trò chuyện tự nhiên với con người
  • Họ đã xây dựng lại kiến trúc và tối ưu hóa để giảm độ trễ
  • Mô hình Phoenix-2 có thể tạo khung hình nhanh hơn thời gian thực ngay cả trên phần cứng cấu hình thấp
  • Công nghệ này có thể trở thành một yếu tố quan trọng của giao diện người-máy tính
  • Một dự án khác có chức năng tương tự là Duplex của Google

1 bình luận

 
GN⁺ 2024-10-02
Ý kiến Hacker News
  • Thích trang web và âm thanh quay số, cả chiếc mũ cao bồi nữa
  • Trải nghiệm trò chuyện với hai avatar không tốt, thường xuyên bị ngắt quãng và gây bối rối
  • Khả năng nhận diện hình ảnh tốt, avatar có thể nhận ra đồ vật khi phản hồi chậm lại
  • Cảm ơn vì đã chia sẻ những khó khăn cụ thể, chắc chắn sẽ còn tốt hơn nữa trong tương lai
  • Phiên bản Hassan tốt hơn, nhận ra bối cảnh và nói về mô hình trên tường
    • Đã trò chuyện về bộ LEGO
  • Trong phòng tắm, camera đang chiếu vào khăn tắm mà nó lại nói "Phòng tắm ấm cúng nhỉ"
  • Cảm giác như đang nói chuyện với người thật, không thể đối xử với nó như với mã nguồn
    • Khiến tôi nghĩ đến nỗ lực có ý thức khi trò chuyện với con người
    • Khi tìm trên Google thì chỉ dùng lượng từ khóa tối thiểu
    • Lo ngại công nghệ này sẽ rèn cho con người những hành vi tương tự
  • Nếu quan tâm đến AI đa phương thức độ trễ thấp, Tavus đang tài trợ một hackathon ở SF vào ngày 19-20 tháng 10
    • Cũng có track từ xa
  • Chức năng demo: 9.5/10
    • Độ rợn người: 10/10
  • Không rành về triển khai GPU, nhưng có vẻ rất tốn kém và khó phân bổ
    • Tò mò không biết họ xử lý tài nguyên GPU đám mây ở quy mô lớn như thế nào
    • Có cấp phát GPU cho mỗi kết nối WebSocket không, nếu vậy thì sẽ rất đắt
  • Về mặt kỹ thuật thì cực kỳ ấn tượng, avatar Carter trông có vẻ căng thẳng
    • Miệng/răng có gì đó hơi kỳ nhưng phản hồi rất nhanh
    • Tôi từng thấy độ trễ trên Zoom còn nhiều hơn thế
    • Tôi nghĩ đây là tương lai của các call center, nếu avatar biểu cảm hơn thì CSAT sẽ cao hơn
  • Thành quả kỹ thuật đáng kinh ngạc, thời gian phản hồi dưới 1 giây thực sự rất ấn tượng
    • Việc có thể nói chuyện với người giả qua FaceTime khá đáng sợ
    • Tò mò họ nghĩ gì về tác động xã hội
    • Hiện nay có một cuộc khủng hoảng cô đơn do thiếu kết nối giữa con người
  • ChatGPT gặp vấn đề trong việc phát hiện khi nào cuộc trò chuyện đã dừng
    • Lúc nào cũng ngắt lời