Animate Anyone: Kỹ thuật tổng hợp image-to-video cho hoạt hình nhân vật

(humanaigc.github.io)

15 điểm bởi GN⁺ 2023-12-02 | 3 bình luận | Chia sẻ qua WhatsApp

Phương pháp tổng hợp image-to-video nhất quán và có thể kiểm soát cho hoạt hình nhân vật

Hoạt hình nhân vật nhằm tạo ra video nhân vật từ hình ảnh tĩnh dựa trên tín hiệu chuyển động.
Mô hình khuếch tán đã trở thành xu hướng chủ đạo trong nghiên cứu tạo sinh thị giác nhờ năng lực tạo sinh mạnh mẽ, nhưng trong lĩnh vực image-to-video, đặc biệt là hoạt hình nhân vật, việc duy trì chi tiết nhất quán theo thời gian là một thách thức lớn.
Bài báo này đề xuất một framework mới cho hoạt hình nhân vật bằng cách tận dụng ưu điểm của mô hình khuếch tán, đồng thời thiết kế ReferenceNet để duy trì các đặc trưng ngoại hình phức tạp của ảnh tham chiếu và tích hợp các đặc trưng chi tiết thông qua spatial attention.

Phương pháp luận

Tổng quan về phương pháp được đề xuất là sử dụng Pose Guider để mã hóa ban đầu chuỗi pose, sau đó hợp nhất với nhiễu đa khung hình, rồi Denoising UNet thực hiện quá trình khử nhiễu để tạo video.
Các khối tính toán của Denoising UNet bao gồm spatial attention, cross attention và temporal attention, còn việc tích hợp ảnh tham chiếu gồm hai khía cạnh.
Thứ nhất, các đặc trưng chi tiết được trích xuất qua ReferenceNet được dùng cho spatial attention; thứ hai, các đặc trưng ngữ nghĩa được trích xuất qua bộ mã hóa ảnh CLIP được dùng cho cross attention.
Temporal attention hoạt động theo chiều thời gian, và cuối cùng VAE decoder giải mã kết quả thành một video clip.

Hoạt hình cho nhiều loại nhân vật khác nhau

Có thể tạo hoạt hình cho nhiều loại nhân vật, bao gồm con người, anime/truyện tranh và nhân vật hình người.
Tổng hợp video thời trang nhằm chuyển ảnh thời trang thành video hoạt hình chân thực, và thí nghiệm được thực hiện trên bộ dữ liệu UBC Fashion Video với cùng dữ liệu huấn luyện.
Tạo điệu nhảy cho người tập trung vào việc làm sống động hình ảnh trong các kịch bản nhảy thực tế, và thí nghiệm được thực hiện trên bộ dữ liệu TikTok với cùng dữ liệu huấn luyện.

Ý kiến của GN⁺

Nghiên cứu này đánh dấu một bước tiến quan trọng trong lĩnh vực hoạt hình nhân vật, đồng thời đưa ra một phương pháp mới để tạo video từ hình ảnh bằng cách tận dụng mô hình khuếch tán.
Công nghệ có thể điều khiển chuyển động nhân vật một cách tinh vi trong khi vẫn giữ được các đặc trưng chi tiết của ảnh tham chiếu có thể tạo ra tác động lớn đến ngành hoạt hình và hiệu ứng hình ảnh.
Bài viết này cung cấp thông tin thú vị về một cách tiếp cận đổi mới cho hoạt hình nhân vật và cách nó có thể được áp dụng cho nhiều loại nhân vật và kịch bản khác nhau.

3 bình luận

laeyoung 2023-12-04

Nếu nghĩ đến những bộ anime bị vỡ phong cách nét vẽ vì trễ tiến độ, thì có lẽ kết quả từ hướng này thậm chí còn tốt hơn. Dĩ nhiên ở mức độ nào đó vẫn sẽ cần có bàn tay con người tham gia trong khâu hậu kỳ.

xguru 2023-12-02

Kết quả thực sự quá đỉnh. Mảng video cũng đang phát triển cực kỳ nhanh.

GN⁺ 2023-12-02

Ý kiến trên Hacker News

Cảm thán rằng đây là lần đầu tiên thấy AI tạo ra chuyển động con người một cách thuyết phục
- Có khả năng bộ khung của chuyển động thực tế bắt nguồn từ motion capture
- Tò mò về trình độ hiện tại của công nghệ tạo bộ khung chuyển động, vốn rất quan trọng với game
- Nhắc đến Rock, Paper, Scissors của Corridor Crew như đỉnh cao trước đây của hoạt hình nhân vật bằng AI
- Dự đoán rào cản gia nhập trong sản xuất hoạt hình sẽ giảm xuống rất thấp
- Yếu tố rùng rợn của AI bạn gái ngày càng tăng
Ngạc nhiên rằng trong vài năm tới công nghệ này có thể được khái quát hóa vượt ra ngoài các nhân vật nữ trẻ trung hấp dẫn theo chuẩn truyền thống
Đặt câu hỏi về việc đăng kết quả nghiên cứu lên Github nhưng không công khai mã nguồn
- Cho rằng xu hướng này là kỳ lạ
Kỳ vọng vào một công cụ hoặc chuỗi công cụ có thể biến manga yêu thích thành anime
- Hy vọng có thể cho hệ thống “tiêu hóa” season 1 hoặc OVA để xem được season 2 mà không cần chờ phát hành chính thức
Hình dung rằng trong vài năm nữa sẽ có các trang giống YouTube nơi mọi video đều được tạo theo thời gian thực
- Kỳ vọng mọi thứ, từ sửa chữa đồ điện tử đến học khoa học, đều được điều chỉnh theo trình độ học tập và sở thích của từng người dùng
Chỉ trích việc lựa chọn ảnh thử nghiệm là không phù hợp
- Lập luận rằng nên dùng các bộ dữ liệu đa dạng và được chuẩn hóa
- Trích dẫn lời phê phán về việc sử dụng hình ảnh mang tính gợi dục trong các bài giảng xử lý ảnh
Nghi ngờ rằng các mẫu đã được tuyển chọn và hệ thống bị overfit vào bộ dữ liệu nên sẽ không khái quát hóa sang những thứ khác
- Việc không có trường hợp thất bại là một dấu hiệu cần cảnh giác
- Dù ở hình thức hiện tại nó vẫn có thể hữu ích, và để tạo ra một hệ thống tổng quát hơn thì chủ yếu cần thu thập dữ liệu huấn luyện phù hợp
Hình dung khi công nghệ này kết hợp với mô hình hóa 3D và VR
- VR porn, game có nhân vật AI động, cùng các diễn viên đã qua đời và nhân vật lịch sử được hồi sinh trong phim ảnh và giáo dục
- Giảm bớt nỗi sợ về viện dưỡng lão trong tương lai
Đặt câu hỏi vì sao mọi thứ trong lĩnh vực này đều có xu hướng mang màu sắc tình dục
- Thừa nhận điều đó có thể là vấn đề, nhưng cũng hoan nghênh khi mọi người bộc lộ ý định một cách thẳng thắn