- SD v1 đã làm thay đổi cục diện của các mô hình AI mã nguồn mở
- SD v2 huấn luyện mô hình text-to-image bằng OpenCLIP, bộ mã hóa văn bản mới, giúp cải thiện mạnh chất lượng hình ảnh so với v1
- Có thể tạo ảnh 512x512, 768x768
- Được huấn luyện bằng tập con có tính thẩm mỹ của bộ dữ liệu LAION-5B (đồng thời loại trừ nội dung người lớn bằng bộ lọc NSFW)
- Tích hợp sẵn mô hình Upscaler Diffusion để tăng độ phân giải hình ảnh lên 4 lần
- Có nghĩa là có thể upscale ảnh 128x128 lên 512x512
- Tức là SD v2 giờ đây có thể tạo ảnh ở độ phân giải từ 2048x2048 trở lên
- Mô hình Depth-to-Image Diffusion:
depth2img
- Mở rộng tính năng image-to-image hiện có sang những khả năng mới
- Suy luận depth của ảnh đầu vào, sau đó dùng cả văn bản và thông tin độ sâu để tạo ảnh mới
- Tức là có thể chỉ tạo khác đi ở những phần cụ thể theo độ sâu của hình ảnh
- Cải thiện mô hình Inpainting Diffusion
- Tương tự SD v1, được tối ưu để vẫn có thể chạy trong môi trường GPU đơn
1 bình luận
Bên tôi cũng đang gắn upscaler vào SD v1 để cung cấp (tạo ở 512 x 512 rồi nếu người dùng muốn thì upscale chiều ngang và chiều dọc lên gấp 4 lần), và thấy cách kết hợp đó nhanh hơn và tốt hơn so với việc tạo kích thước lớn bằng SD v1.