Google công bố AI chuyển văn bản thành video "Imagen Video"
(imagen.research.google)- Hệ thống "Text-conditional Video Generation System" tạo video từ văn bản đầu vào bằng Video Diffusion Model
- Điểm đặc trưng là tạo video độ phân giải thấp từ văn bản (24x48 pixel, 16 khung hình, 3fps), rồi chồng tầng 7 mô hình khuếch tán (cascade) để nâng cấp độ phân giải
- Đầu ra cuối cùng là 1280x768 24fps. Có thể tạo video dài 5,3 giây
- Bài báo: Imagen Video : High Definition Video Generation with Diffusion Models
1 bình luận
Imagen - mô hình diffusion text-to-image của Google
Imagen-pytorch - triển khai Google Imagen bằng Pytorch
Make-A-Video : AI tạo video từ văn bản