- Hassaan và Quinn, đồng sáng lập Tavus, giới thiệu công ty nghiên cứu AI và nền tảng phát triển video API
- Từ năm 2020, họ đã phát triển các mô hình video AI cho "digital twin" hoặc "avatar"
- Chia sẻ những thách thức trong việc xây dựng giao diện video AI để trò chuyện chân thực với con người
Thách thức
- Để video hội thoại hoạt động hiệu quả, cần độ trễ rất thấp và khả năng nhận biết ngữ cảnh hội thoại
- Các cuộc trò chuyện nhanh giữa bạn bè thường có khoảng 250ms giữa các lượt phát biểu, nhưng các chủ đề phức tạp hoặc cuộc trò chuyện với người mới cần thêm thời gian "suy nghĩ"
- Độ trễ dưới 1000ms giúp cuộc trò chuyện trở nên chân thực
Quyết định kiến trúc
- Cân bằng giữa độ trễ, khả năng mở rộng và chi phí là một thách thức lớn
- Họ đã phải xây dựng lại từ đầu để giảm độ trễ
- Đồng thời phải giảm chi phí tính toán trong khi vẫn hỗ trợ hàng nghìn cuộc trò chuyện cùng lúc
Giai đoạn phát triển ban đầu
- Trong giai đoạn đầu, mỗi cuộc trò chuyện phải chạy trên một H100 riêng biệt
- Điều này không thể mở rộng và rất tốn kém
Phát triển mô hình Phoenix-2
- Họ đã phát triển một mô hình mới, Phoenix-2, với nhiều cải tiến
- Chuyển từ backbone dựa trên NeRF sang Gaussian Splatting để có thể tạo khung hình nhanh hơn thời gian thực
- Tối ưu hóa bộ nhớ và việc sử dụng lõi GPU để có thể chạy trên phần cứng cấu hình thấp
- Cũng áp dụng các phương pháp khác để tiết kiệm thời gian và chi phí như streaming so với batching, song song hóa tiến trình
Tối ưu hóa
- Mỗi thành phần (vision, ASR, LLM, TTS, tạo video) đều phải được tối ưu hóa ở mức siêu nhanh
- Vấn đề lớn nhất là LLM
- Dù tốc độ token mỗi giây (t/s) nhanh, nếu thời gian tới token đầu tiên (ttft) chậm thì vẫn là vấn đề
- Hầu hết các nhà cung cấp đều quá chậm
Phát hiện kết thúc lượt nói
- Việc phát hiện khi người dùng kết thúc phát biểu là rất khó
- Giải pháp cơ bản là dùng khoảng thời gian im lặng sau lời nói để "quyết định" lượt nói đã kết thúc, nhưng điều này làm tăng độ trễ
- Điều quan trọng là canh thời điểm phù hợp để tác nhân AI không ngắt lời người dùng
Kết quả
- Nhờ các tối ưu hóa này, độ trễ đã được giảm từ 3-5 giây xuống dưới 1 giây (tối đa 600ms)
- Đạt được độ trễ dưới 1 giây ngay cả trên phần cứng cấu hình thấp
- Có nhiều khách hàng như Delphi, và các cuộc trò chuyện với digital twin kéo dài từ vài phút đến tối đa 4 giờ
Tóm tắt của GN⁺
- Mô hình video AI của Tavus hướng tới các cuộc trò chuyện tự nhiên với con người
- Họ đã xây dựng lại kiến trúc và tối ưu hóa để giảm độ trễ
- Mô hình Phoenix-2 có thể tạo khung hình nhanh hơn thời gian thực ngay cả trên phần cứng cấu hình thấp
- Công nghệ này có thể trở thành một yếu tố quan trọng của giao diện người-máy tính
- Một dự án khác có chức năng tương tự là Duplex của Google
1 bình luận
Ý kiến Hacker News