VideoLDM - Tổng hợp Text-to-Video độ phân giải cao bằng Latent Diffusion Model

xguru · 2023-04-22T10:18:01+09:00

LDM học Diffusion Model trong không gian latent nén có số chiều thấp, nhờ đó có thể tổng hợp hình ảnh độ phân giải cao mà không cần quá nhiều tài nguyên tính toán Bài báo của NVIDIA áp dụng LDM này cho video độ phân giải cao Tiền huấn luyện LDM chỉ cho ảnh, rồi đưa thêm chiều thời gian, tinh chỉnh chuỗi ảnh đã được mã hóa để chuyển bộ sinh ảnh thành bộ sinh video Căn chỉnh bộ upsampler của mô hình khuếch tán để biến nó thành mô hình video siêu độ phân giải có tính nhất quán theo thời gian

(research.nvidia.com)

7 điểm bởi xguru 2023-04-22 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

LDM học Diffusion Model trong không gian latent nén có số chiều thấp, nhờ đó có thể tổng hợp hình ảnh độ phân giải cao mà không cần quá nhiều tài nguyên tính toán
Bài báo của NVIDIA áp dụng LDM này cho video độ phân giải cao
Tiền huấn luyện LDM chỉ cho ảnh, rồi đưa thêm chiều thời gian, tinh chỉnh chuỗi ảnh đã được mã hóa để chuyển bộ sinh ảnh thành bộ sinh video
Căn chỉnh bộ upsampler của mô hình khuếch tán để biến nó thành mô hình video siêu độ phân giải có tính nhất quán theo thời gian

VideoLDM - Tổng hợp Text-to-Video độ phân giải cao bằng Latent Diffusion Model

Bài viết liên quan

Chưa có bình luận nào.