Phương pháp tổng hợp image-to-video nhất quán và có thể kiểm soát cho hoạt hình nhân vật
- Hoạt hình nhân vật nhằm tạo ra video nhân vật từ hình ảnh tĩnh dựa trên tín hiệu chuyển động.
- Mô hình khuếch tán đã trở thành xu hướng chủ đạo trong nghiên cứu tạo sinh thị giác nhờ năng lực tạo sinh mạnh mẽ, nhưng trong lĩnh vực image-to-video, đặc biệt là hoạt hình nhân vật, việc duy trì chi tiết nhất quán theo thời gian là một thách thức lớn.
- Bài báo này đề xuất một framework mới cho hoạt hình nhân vật bằng cách tận dụng ưu điểm của mô hình khuếch tán, đồng thời thiết kế ReferenceNet để duy trì các đặc trưng ngoại hình phức tạp của ảnh tham chiếu và tích hợp các đặc trưng chi tiết thông qua spatial attention.
Phương pháp luận
- Tổng quan về phương pháp được đề xuất là sử dụng Pose Guider để mã hóa ban đầu chuỗi pose, sau đó hợp nhất với nhiễu đa khung hình, rồi Denoising UNet thực hiện quá trình khử nhiễu để tạo video.
- Các khối tính toán của Denoising UNet bao gồm spatial attention, cross attention và temporal attention, còn việc tích hợp ảnh tham chiếu gồm hai khía cạnh.
- Thứ nhất, các đặc trưng chi tiết được trích xuất qua ReferenceNet được dùng cho spatial attention; thứ hai, các đặc trưng ngữ nghĩa được trích xuất qua bộ mã hóa ảnh CLIP được dùng cho cross attention.
- Temporal attention hoạt động theo chiều thời gian, và cuối cùng VAE decoder giải mã kết quả thành một video clip.
Hoạt hình cho nhiều loại nhân vật khác nhau
- Có thể tạo hoạt hình cho nhiều loại nhân vật, bao gồm con người, anime/truyện tranh và nhân vật hình người.
- Tổng hợp video thời trang nhằm chuyển ảnh thời trang thành video hoạt hình chân thực, và thí nghiệm được thực hiện trên bộ dữ liệu UBC Fashion Video với cùng dữ liệu huấn luyện.
- Tạo điệu nhảy cho người tập trung vào việc làm sống động hình ảnh trong các kịch bản nhảy thực tế, và thí nghiệm được thực hiện trên bộ dữ liệu TikTok với cùng dữ liệu huấn luyện.
Ý kiến của GN⁺
- Nghiên cứu này đánh dấu một bước tiến quan trọng trong lĩnh vực hoạt hình nhân vật, đồng thời đưa ra một phương pháp mới để tạo video từ hình ảnh bằng cách tận dụng mô hình khuếch tán.
- Công nghệ có thể điều khiển chuyển động nhân vật một cách tinh vi trong khi vẫn giữ được các đặc trưng chi tiết của ảnh tham chiếu có thể tạo ra tác động lớn đến ngành hoạt hình và hiệu ứng hình ảnh.
- Bài viết này cung cấp thông tin thú vị về một cách tiếp cận đổi mới cho hoạt hình nhân vật và cách nó có thể được áp dụng cho nhiều loại nhân vật và kịch bản khác nhau.
3 bình luận
Nếu nghĩ đến những bộ anime bị vỡ phong cách nét vẽ vì trễ tiến độ, thì có lẽ kết quả từ hướng này thậm chí còn tốt hơn. Dĩ nhiên ở mức độ nào đó vẫn sẽ cần có bàn tay con người tham gia trong khâu hậu kỳ.
Kết quả thực sự quá đỉnh. Mảng video cũng đang phát triển cực kỳ nhanh.
Ý kiến trên Hacker News
Cảm thán rằng đây là lần đầu tiên thấy AI tạo ra chuyển động con người một cách thuyết phục
Ngạc nhiên rằng trong vài năm tới công nghệ này có thể được khái quát hóa vượt ra ngoài các nhân vật nữ trẻ trung hấp dẫn theo chuẩn truyền thống
Đặt câu hỏi về việc đăng kết quả nghiên cứu lên Github nhưng không công khai mã nguồn
Kỳ vọng vào một công cụ hoặc chuỗi công cụ có thể biến manga yêu thích thành anime
Hình dung rằng trong vài năm nữa sẽ có các trang giống YouTube nơi mọi video đều được tạo theo thời gian thực
Chỉ trích việc lựa chọn ảnh thử nghiệm là không phù hợp
Nghi ngờ rằng các mẫu đã được tuyển chọn và hệ thống bị overfit vào bộ dữ liệu nên sẽ không khái quát hóa sang những thứ khác
Hình dung khi công nghệ này kết hợp với mô hình hóa 3D và VR
Đặt câu hỏi vì sao mọi thứ trong lĩnh vực này đều có xu hướng mang màu sắc tình dục