9 điểm bởi xguru 2022-10-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hệ thống "Text-conditional Video Generation System" tạo video từ văn bản đầu vào bằng Video Diffusion Model
  • Điểm đặc trưng là tạo video độ phân giải thấp từ văn bản (24x48 pixel, 16 khung hình, 3fps), rồi chồng tầng 7 mô hình khuếch tán (cascade) để nâng cấp độ phân giải
  • Đầu ra cuối cùng là 1280x768 24fps. Có thể tạo video dài 5,3 giây
  • Bài báo: Imagen Video : High Definition Video Generation with Diffusion Models