11 điểm bởi xguru 2023-04-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các mô hình diffusion đã mang lại bước đột phá trong việc tạo sinh hình ảnh, âm thanh và video
    • Tuy nhiên, do phải trải qua quy trình tạo sinh lặp đi lặp lại nên tốc độ chậm, khó áp dụng cho thời gian thực
  • Consistency Model có thể tạo sinh chất lượng cao chỉ với 1~2 bước mà không cần Adversarial Training
    • Mô hình này cũng cho chất lượng tốt hơn nếu lấy mẫu nhiều lần
    • Cũng hỗ trợ zero-shot data editing, image inpainting, tô màu và super-resolution mà không cần huấn luyện đặc biệt
    • Có thể huấn luyện theo cách chưng cất từ mô hình diffusion đã được huấn luyện trước hoặc như một mô hình tạo sinh độc lập

1 bình luận

 
xguru 2023-04-13

Bài báo đã được công bố trước đó: Consistency Models https://arxiv.org/abs/2303.01469

Trong bài báo đầu tiên về mô hình diffusion, việc sinh ảnh cần trải qua 1000 bước; đến nay cùng với quá trình phát triển liên tục, con số này đã giảm xuống dưới 50 bước,
và vào cuối năm ngoái cũng đã có thông tin về Distilled StableDiffusion2, thứ rút ngắn xuống còn 1~4 bước, nhưng đến nay bài báo vẫn chưa được công bố.
https://twitter.com/EMostaque/status/1598131202044866560