Giới thiệu về Infinity AI
- Infinity AI là công ty huấn luyện mô hình video lấy con người làm trung tâm
- Đây là trường hợp đầu tiên huấn luyện bộ biến đổi khuếch tán video được điều khiển bằng đầu vào âm thanh
- Mô hình này có thể tạo ra các nhân vật giàu biểu cảm và chân thực đang thực sự nói chuyện
Cách sử dụng
- Có thể dùng công cụ của Infinity AI để nhập kịch bản và tạo video nhân vật đang nói
- Ví dụ:
- "Video Mona Lisa nói 'Bạn đang nhìn gì mà cười vậy?'"
- "Video một chú lùn đội mũ đỏ phong cách 3D Pixar đọc Tuyên ngôn Độc lập"
- "Video Elon Musk hát 'Fly Me To The Moon' của Frank Sinatra"
Vấn đề của các công cụ AI hiện có
- Các mô hình video AI tạo sinh trước đây không thể khiến nhân vật nói chuyện
- Các công ty avatar biết nói trước đây sử dụng cách thêm lip-sync lên video có sẵn
- Vì vậy xuất hiện biểu cảm và cử chỉ không khớp với âm thanh, tạo ra hiện tượng "uncanny valley"
Hạn chế của mô hình V1
- Cách tiếp cận lip-sync ngoài việc lệch cử chỉ còn có nhiều giới hạn khác
- Có vấn đề như thư viện diễn viên bị giới hạn và không thể làm hoạt họa các nhân vật tưởng tượng
Điểm cải thiện của mô hình V2
- Đã huấn luyện mô hình bộ biến đổi khuếch tán video end-to-end nhận đầu vào là một ảnh đơn, âm thanh và các tín hiệu điều kiện khác để xuất video
- Họ tin đây là cách tiếp cận tối ưu để nắm bắt sự phức tạp và tinh tế trong chuyển động cũng như cảm xúc của con người
- Nhược điểm là mô hình chậm
Ưu điểm của mô hình
- Có thể xử lý nhiều ngôn ngữ
- Đã học được một phần vật lý (ví dụ: khuyên tai đung đưa đúng cách)
- Có thể làm hoạt họa nhiều loại hình ảnh khác nhau (tranh vẽ, tượng điêu khắc, v.v.)
- Có thể xử lý bài hát
Nhược điểm của mô hình
- Không thể xử lý hình ảnh động vật (chỉ hỗ trợ hình người)
- Thường chèn tay vào khung hình (rất phiền và gây xao nhãng)
- Không đủ mạnh với tranh hoạt hình
- Có thể làm méo nhận diện danh tính của con người (đặc biệt rõ với người nổi tiếng)
Thử dùng mô hình
Tóm tắt của GN⁺
- Mô hình video của Infinity AI là trường hợp đầu tiên có thể tạo nhân vật chân thực thông qua đầu vào âm thanh
- Mô hình này vượt qua giới hạn của các công cụ AI hiện có và nắm bắt tốt hơn chuyển động cũng như cảm xúc của con người nhờ bộ biến đổi khuếch tán video end-to-end
- Mô hình có ưu điểm là xử lý được nhiều ngôn ngữ và nhiều loại hình ảnh khác nhau, nhưng cũng có nhược điểm như không xử lý được hình ảnh động vật và hay chèn tay vào khung hình
- Các dự án khác có chức năng tương tự gồm Runway và Luma
1 bình luận
Ý kiến trên Hacker News