11 điểm bởi xguru 2022-08-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Huấn luyện mô hình Latent Diffusion trên các ảnh 512x512 trong cơ sở dữ liệu LAION-5B
  • Sử dụng bộ mã hóa văn bản CLIP ViT-L/14 tương tự Imagen của Google
  • Nhẹ nên có thể chạy chỉ với 1 GPU có hơn 10GB VRAM
  • Được hợp tác phát triển và tài trợ bởi các nhà nghiên cứu của Stability AI và LAION

1 bình luận

 
xguru 2022-08-16

Nghe nói ở những phần kiểu minh họa nghệ thuật hiện đại thì kết quả còn tốt hơn cả DALL-E 2 hay MidJourney. Theo chia sẻ trên Discord của các nhà phát triển thì nó cũng chạy được trên máy Mac M1. Trước mắt, vì ít bị ràng buộc về phần cứng nên có vẻ đây sẽ là một điểm mạnh lớn, ai cũng có thể dễ dàng sử dụng. Tất nhiên đây là mã nguồn mở, nhưng hiện tại vẫn chỉ có thể tiếp cận cho mục đích học thuật.

Tự vận hành trình tạo ảnh AI kiểu DALL-E Imagen - mô hình diffusion text-to-image của Google LAION-400M - bộ dữ liệu gồm 400 triệu cặp hình ảnh-văn bản