VideoLDM - Tổng hợp Text-to-Video độ phân giải cao bằng Latent Diffusion Model
(research.nvidia.com)- LDM học Diffusion Model trong không gian latent nén có số chiều thấp, nhờ đó có thể tổng hợp hình ảnh độ phân giải cao mà không cần quá nhiều tài nguyên tính toán
- Bài báo của NVIDIA áp dụng LDM này cho video độ phân giải cao
- Tiền huấn luyện LDM chỉ cho ảnh, rồi đưa thêm chiều thời gian, tinh chỉnh chuỗi ảnh đã được mã hóa để chuyển bộ sinh ảnh thành bộ sinh video
- Căn chỉnh bộ upsampler của mô hình khuếch tán để biến nó thành mô hình video siêu độ phân giải có tính nhất quán theo thời gian
Chưa có bình luận nào.