SnapFusion - Mô hình khuếch tán chuyển văn bản thành hình ảnh có thể tạo ảnh trên thiết bị di động chỉ trong 2 giây
(snap-research.github.io)- Đạt được điều này nhờ cải tiến kiến trúc mạng hiệu quả và chưng cất theo từng giai đoạn
- Đề xuất một UNet hiệu quả giúp giảm lượng tính toán của bộ giải mã hình ảnh thông qua việc xác định tính dư thừa của mô hình gốc và chưng cất dữ liệu
- Kết quả thử nghiệm với MS-COCO cho thấy mô hình SnapFusion chỉ với 8 bước khử nhiễu đạt điểm FID và CLIP tốt hơn Stable Diffusion v.15 với 50 bước
1 bình luận
Đây là bài báo do Snapchat công bố, nhưng vì mã nguồn vẫn chưa được công khai nên có những bình luận đang tranh cãi kiểu như.. liệu chuyện này có thực sự khả thi không?
https://news.ycombinator.com/item?id=36304716
Trước mắt thì video demo đúng là đang chạy ở chế độ máy bay.