Show HN: Infinity – nhân vật AI chân thực có thể nói chuyện

(news.ycombinator.com)

1 điểm bởi GN⁺ 2024-09-07 | 1 bình luận | Chia sẻ qua WhatsApp

Infinity AI đang huấn luyện một mô hình video nền tảng lấy con người làm trung tâm, với mục tiêu tạo video nhân vật biết nói chỉ từ đầu vào âm thanh
Người tạo có thể nhập kịch bản để nhân vật nói và tạo video, và về sau hướng tới việc có thể chỉ định cả hành động
V2 là một mô hình end-to-end tạo video từ một ảnh đơn, âm thanh và tín hiệu điều kiện, nhằm giảm sự lệch giữa biểu cảm và cử chỉ vốn thường gặp ở cách làm lipsync truyền thống
Đến nay đã đầu tư khoảng 11 GPU-năm và khoảng 500.000 USD, nhưng ngay cả khi dùng rectified flow và 3D VAE embedding layer thì tốc độ tạo vẫn còn chậm
Mô hình thể hiện điểm mạnh ở đa ngôn ngữ, chuyển động vật lý, ảnh hội họa hoặc điêu khắc, và cả hát, nhưng vẫn còn các chế độ lỗi như với động vật, hoạt hình, việc chèn tay, hay làm méo nhận diện người nổi tiếng

Video nhân vật biết nói do Infinity V2 tạo ra

Infinity AI huấn luyện một mô hình video nền tảng riêng, tập trung vào con người
Theo hiểu biết của nhóm, đây gần như là trường hợp đầu tiên huấn luyện một video diffusion transformer được điều khiển bằng đầu vào âm thanh
Cách tiếp cận này tập trung vào việc tạo ra video nhân vật thực sự nói, với khả năng biểu đạt cao và trông chân thực
Có thể xem video minh họa tại V2 launch blog
Có thể trực tiếp thử mô hình tại Infinity Studio
Nhóm cho biết nếu để lại mô tả nhân vật trong bình luận HN, họ sẽ tạo video và trả lời bằng liên kết
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

Các mô hình video AI tạo sinh như Runway và Luma không phù hợp để làm cho nhân vật nói chuyện
Các dịch vụ talking avatar như HeyGen và Synthesia áp dụng lipsync lên video quay sẵn
- Âm thanh có thể lệch với biểu cảm và cử chỉ
- Sự không khớp này có thể tạo cảm giác uncanny mà khó xác định rõ nguyên nhân
Infinity V1 cũng dùng cách tiếp cận lipsync
- Vẫn còn tình trạng cử chỉ không khớp
- Phải fine-tune mô hình cho từng diễn viên bằng tư liệu video có sẵn nên thư viện diễn viên bị hạn chế
- Khó tạo hoạt ảnh cho các nhân vật tưởng tượng
V2 chuyển sang video diffusion transformer end-to-end nhận đầu vào là một ảnh đơn, âm thanh và các tín hiệu điều kiện khác rồi xuất ra video
- Nhóm cho rằng cách tiếp cận này phù hợp nhất để nắm bắt sự phức tạp và sắc thái trong chuyển động cũng như cảm xúc của con người
- Nhược điểm là tốc độ tạo chậm
- Rectified flow giúp tăng tốc 2–4 lần, còn 3D VAE embedding layer giúp tăng 2–5 lần, nhưng vẫn còn chậm
Tính đến hiện tại, nhóm đã đầu tư khoảng 11 GPU-năm và khoảng 500.000 USD cho việc huấn luyện, và quá trình này vẫn đang tiếp tục

Điểm mạnh
- Có thể xử lý nhiều ngôn ngữ
- Đã học được một phần vật lý, như khuyên tai đung đưa tự nhiên và suy luận ra chiếc còn lại ở tai đối diện
- Có thể tạo hoạt ảnh cho các loại ảnh chưa được huấn luyện như tranh vẽ hoặc tượng điêu khắc
- Có thể xử lý hát
Hạn chế
- Không xử lý được động vật, chỉ hỗ trợ ảnh dạng humanoid
- Thường chèn tay vào khung hình gây nhiễu
- Chưa đủ robust với hoạt hình
- Có thể làm méo nhận diện con người, đặc biệt dễ thấy ở người nổi tiếng

GN⁺ 2024-09-07

Có vẻ là một bản bắt chước chất lượng thấp của Hedra và hiện tại còn kém khá xa
Đã dùng chuyển văn bản thành hình ảnh để tạo ra một lính thủy đánh bộ vũ trụ, và cho ra kết quả đáng kinh ngạc ngay cả khi không chỉnh sửa thêm
Ngay khi thấy tùy chọn khuôn mặt "Gnome", tôi đã biết phải làm gì
Có vẻ mô hình không thích Duke Nukem
Cắt khẩu súng lục của anh ta đi khiến tình hình còn tệ hơn
Những hình ảnh khác cho kết quả khá hơn một chút
Tôi thích hình này nhất
Kiểu gì cũng phải có người làm việc này
Có các nghiên cứu đi trước như Emo của Alibaba, nhưng bản demo này ấn tượng ở chỗ mọi người thực sự có thể tự thử
Tôi đã cố biến meme thành hiện thực, nhưng ảnh gốc khá khó xử lý
- Âm thanh có một chút vấn đề về ngôn ngữ
Tôi đã cố đẩy nó sang phía uncanny valley, nhưng khá khó
Thỉnh thoảng nó chèn tay vào trong khung hình
- Có vẻ như nó được huấn luyện bằng quá nhiều dữ liệu tiếng Ý
Công cụ này thật sự rất đáng kinh ngạc
- Với âm thanh ngắn (3~5 giây), có một lỗi nhỏ là hình ảnh vẫn bị đứng yên hoàn toàn