Show HN: tác tử video AI thời gian thực với độ trễ dưới 1 giây

(news.ycombinator.com)

2 điểm bởi GN⁺ 2024-10-02 | 1 bình luận | Chia sẻ qua WhatsApp

Tavus tập trung giảm độ trễ phản hồi xuống dưới 1 giây để tạo ra giao diện video AI có thể trò chuyện tự nhiên với con người
Trong các cuộc trò chuyện nhanh, khoảng cách giữa các lượt nói chỉ khoảng 250ms, nên tác tử video cũng phải có độ trễ thấp cùng với nhận biết ngữ cảnh hội thoại
Phoenix-1 ban đầu cần một H100 cho mỗi cuộc trò chuyện, nên bị giới hạn về chi phí và khả năng mở rộng; Phoenix-2 hướng tới tạo hơn 70fps trên phần cứng cấu hình thấp bằng cách chuyển sang Gaussian Splatting
Trong toàn bộ pipeline, họ đã cắt giảm vision, ASR, LLM, TTS và cả khâu tạo video; với LLM, nút thắt cảm nhận rõ nhất là thời gian đến token đầu tiên chứ không phải số token mỗi giây
Nếu chỉ dựa vào thời gian im lặng để xác định kết thúc lượt nói thì sẽ gây chen lời và làm chậm phản hồi, nên nhờ phát hiện kết thúc lượt nói và dự đoán đầu vào, họ đã giảm độ trễ từ 3–5 giây xuống dưới 1 giây, nhanh thì tới 600ms

Mục tiêu của Tavus: tốc độ phản hồi mang lại cảm giác như con người

Tavus là công ty nghiên cứu AI và nền tảng dành cho nhà phát triển video API, từ năm 2020 đã xây dựng các mô hình video AI cho digital twin hoặc avatar
Họ cung cấp bản demo cho phép trò chuyện với digital twin của Hassaan tại hassaanraza.com, và “demo twin” Carter tại tavus.io
Video hội thoại có thể trở thành cách tương tác tự nhiên hơn với máy tính, nhưng để làm được điều đó thì cần độ trễ thấp và khả năng nhận biết có phản ánh ngữ cảnh hội thoại
Mục tiêu độ trễ là dưới 1 giây
- Các cuộc trò chuyện nhanh giữa bạn bè có khoảng cách giữa các lượt nói chỉ khoảng 250ms
- Với các chủ đề phức tạp hơn hoặc khi trò chuyện với người lạ, sẽ có thêm thời gian “suy nghĩ”
- Nếu dưới 1000ms thì cuộc trò chuyện được xem là mang lại cảm giác khá chân thực

Cách triển khai cân bằng giữa độ trễ, khả năng mở rộng và chi phí

Kiến trúc phải đồng thời đáp ứng độ trễ, khả năng mở rộng và chi phí, nên họ tiếp cận lại từ đầu như một hệ thống độ trễ thấp
Mô hình video và chi phí phần cứng
- Ở giai đoạn phát triển ban đầu, để chạy mô hình Phoenix-1 nhanh hơn 30fps thì phải đưa mọi thành phần và trọng số mô hình vào bộ nhớ GPU, và cần một H100 riêng cho mỗi cuộc trò chuyện
- Cách này khó mở rộng và cũng rất tốn kém
- Phoenix-2 là mô hình mới phản ánh nhiều cải tiến, bao gồm cả tốc độ suy luận
  - Chuyển từ backbone dựa trên NeRF sang Gaussian Splatting
  - Đặt yêu cầu tạo khung hình hơn 70fps nhanh hơn thời gian thực trên phần cứng cấu hình thấp
  - Tập trung tối ưu bộ nhớ GPU và mức sử dụng core để có thể chạy trên phần cứng cấu hình thấp hơn
  - Việc dùng streaming và song song hóa thay cho xử lý theo batch cũng được tận dụng để tiết kiệm thời gian và chi phí
LLM và phát hiện kết thúc lượt nói
- Để giảm độ trễ giữa các lượt nói xuống dưới 1 giây, họ tối ưu rất mạnh từng phần: vision, ASR, LLM, TTS và tạo video
- Nút thắt lớn nhất là LLM
  - So với số token mỗi giây, thời gian đến token đầu tiên (time-to-first token) quan trọng hơn nhiều đối với độ trễ mà người dùng thực sự cảm nhận
  - Các dịch vụ như Groq tuy có token mỗi giây cao nhưng thời gian đến token đầu tiên chậm nên không phù hợp với yêu cầu, và đa số nhà cung cấp đều quá chậm
- Nút thắt tiếp theo là phần phát hiện người dùng đã dừng nói hay chưa
  - Nếu xác định việc dừng nói dựa trên khoảng thời gian sau im lặng thì sẽ tạo thêm độ trễ
  - Nếu đặt ngưỡng quá ngắn thì tác tử AI sẽ đè lên lời người dùng, còn nếu quá dài thì phản hồi sẽ bị chậm
  - Cần một mô hình chuyên dụng có thể phát hiện chính xác kết thúc lượt nói (end-of-turn) dựa trên tín hiệu hội thoại, đồng thời dự đoán đầu vào để chuẩn bị trước
- Nhờ các tối ưu này, họ đã giảm độ trễ từ 3–5 giây xuống dưới 1 giây, nhanh thì tới 600ms, đồng thời chạy được trên phần cứng cấu hình thấp hơn

Demo và các trường hợp sử dụng

Tavus có các khách hàng như Delphi; Delphi là nền tảng sao chép chuyên gia và huấn luyện viên chuyên môn, nơi người dùng có những cuộc trò chuyện với digital twin kéo dài từ vài phút đến 1 giờ, thậm chí 4 giờ
Người dùng xem demo xong và muốn thử API có thể đăng ký miễn phí tại tavus.io

1 bình luận

GN⁺ 2024-10-02

Ý kiến Hacker News

Thích trang web và âm thanh quay số, cả chiếc mũ cao bồi nữa
Trải nghiệm trò chuyện với hai avatar không tốt, thường xuyên bị ngắt quãng và gây bối rối
Khả năng nhận diện hình ảnh tốt, avatar có thể nhận ra đồ vật khi phản hồi chậm lại
Cảm ơn vì đã chia sẻ những khó khăn cụ thể, chắc chắn sẽ còn tốt hơn nữa trong tương lai
Phiên bản Hassan tốt hơn, nhận ra bối cảnh và nói về mô hình trên tường
- Đã trò chuyện về bộ LEGO
Trong phòng tắm, camera đang chiếu vào khăn tắm mà nó lại nói "Phòng tắm ấm cúng nhỉ"
Cảm giác như đang nói chuyện với người thật, không thể đối xử với nó như với mã nguồn
- Khiến tôi nghĩ đến nỗ lực có ý thức khi trò chuyện với con người
- Khi tìm trên Google thì chỉ dùng lượng từ khóa tối thiểu
- Lo ngại công nghệ này sẽ rèn cho con người những hành vi tương tự
Nếu quan tâm đến AI đa phương thức độ trễ thấp, Tavus đang tài trợ một hackathon ở SF vào ngày 19-20 tháng 10
- Cũng có track từ xa
Chức năng demo: 9.5/10
- Độ rợn người: 10/10
Không rành về triển khai GPU, nhưng có vẻ rất tốn kém và khó phân bổ
- Tò mò không biết họ xử lý tài nguyên GPU đám mây ở quy mô lớn như thế nào
- Có cấp phát GPU cho mỗi kết nối WebSocket không, nếu vậy thì sẽ rất đắt
Về mặt kỹ thuật thì cực kỳ ấn tượng, avatar Carter trông có vẻ căng thẳng
- Miệng/răng có gì đó hơi kỳ nhưng phản hồi rất nhanh
- Tôi từng thấy độ trễ trên Zoom còn nhiều hơn thế
- Tôi nghĩ đây là tương lai của các call center, nếu avatar biểu cảm hơn thì CSAT sẽ cao hơn
Thành quả kỹ thuật đáng kinh ngạc, thời gian phản hồi dưới 1 giây thực sự rất ấn tượng
- Việc có thể nói chuyện với người giả qua FaceTime khá đáng sợ
- Tò mò họ nghĩ gì về tác động xã hội
- Hiện nay có một cuộc khủng hoảng cô đơn do thiếu kết nối giữa con người
ChatGPT gặp vấn đề trong việc phát hiện khi nào cuộc trò chuyện đã dừng
- Lúc nào cũng ngắt lời

Show HN: tác tử video AI thời gian thực với độ trễ dưới 1 giây

Mục tiêu của Tavus: tốc độ phản hồi mang lại cảm giác như con người

Cách triển khai cân bằng giữa độ trễ, khả năng mở rộng và chi phí

Mô hình video và chi phí phần cứng

LLM và phát hiện kết thúc lượt nói

Demo và các trường hợp sử dụng

Bài viết liên quan

1 bình luận

Ý kiến Hacker News