Stability AI công bố mô hình Stable Diffusion XL 1.0

xguru · 2023-07-28T10:47:01+09:00

Mô hình Text-to-Image tiên tiến nhất Sống động hơn so với phiên bản trước, màu sắc chính xác hơn cùng độ tương phản, bóng đổ và ánh sáng tốt hơn 3,5 tỷ tham số Có thể tạo ảnh độ phân giải 1 megapixel chỉ trong vài giây Có thể tùy biến và tinh chỉnh cho các concept và phong cách Khả năng tạo văn bản cũng được cải thiện, giúp tạo chữ nâng cao và tăng độ dễ đọc Hỗ trợ inpainting, outpainting và prompt image-to-image

(techcrunch.com)

9 điểm bởi xguru 2023-07-28 | 2 bình luận | Chia sẻ qua WhatsApp

Mô hình Text-to-Image tiên tiến nhất
- Sống động hơn so với phiên bản trước, màu sắc chính xác hơn cùng độ tương phản, bóng đổ và ánh sáng tốt hơn
- 3,5 tỷ tham số
Có thể tạo ảnh độ phân giải 1 megapixel chỉ trong vài giây
Có thể tùy biến và tinh chỉnh cho các concept và phong cách
Khả năng tạo văn bản cũng được cải thiện, giúp tạo chữ nâng cao và tăng độ dễ đọc
Hỗ trợ inpainting, outpainting và prompt image-to-image

2 bình luận

ninebow 2023-07-28

Tôi đã dùng GPT-4 để tự động tạo phần giải thích chi tiết cho bài công bố chính thức.

Công bố SDXL 1.0 (ANNOUNCING SDXL 1.0)

Giới thiệu

Đội ngũ Stability AI tự hào phát hành SDXL 1.0 dưới dạng mô hình mở, đánh dấu bước tiến tiếp theo trong quá trình phát triển của các mô hình tạo ảnh từ văn bản. Tiếp nối bản phát hành giới hạn chỉ dành cho nghiên cứu của SDXL 0.9, phiên bản đầy đủ của SDXL đã được cải thiện để trở thành mô hình tạo ảnh mở hàng đầu thế giới.

Tóm tắt

SDXL 1.0 là mô hình ảnh chủ lực của Stability AI và là mô hình mở tốt nhất cho việc tạo ảnh. Chúng tôi đã so sánh với nhiều mô hình khác nhau, và kết quả cho thấy mọi người ưu tiên các hình ảnh được tạo bởi SDXL 1.0 hơn các mô hình mở khác. Kết quả nghiên cứu này dựa trên nhiều tuần dữ liệu sở thích được thu thập từ các thế hệ mô hình thử nghiệm trên Discord của chúng tôi, cùng với các bài kiểm thử bên ngoài.
SDXL có thể tạo ra hình ảnh chất lượng cao ở hầu như mọi phong cách nghệ thuật, và là mô hình mở tốt nhất về tính chân thực như ảnh chụp. Có thể prompt để tạo ra những hình ảnh độc đáo mà không bị áp đặt một “cảm giác” đặc trưng nào từ mô hình, qua đó bảo đảm sự tự do tuyệt đối về phong cách. SDXL 1.0 đặc biệt được tinh chỉnh tốt về độ rõ nét và độ chính xác màu sắc, đồng thời có độ tương phản, ánh sáng và bóng đổ tốt hơn thế hệ trước. Ngoài ra, SDXL còn có thể tạo ra những khái niệm mà các mô hình ảnh thường khó render, chẳng hạn như bàn tay, văn bản, hoặc các bố cục sắp xếp theo không gian (ví dụ: một người phụ nữ đuổi theo một con chó ở hậu cảnh).
SDXL chỉ cần vài từ để tạo ra những hình ảnh phức tạp, giàu chi tiết và có tính thẩm mỹ cao. Người dùng không còn cần dùng các từ bổ trợ như “kiệt tác” để có được hình ảnh chất lượng cao. Ngoài ra, SDXL có thể hiểu được sự khác biệt giữa các khái niệm như “The Red Square” (một địa danh nổi tiếng) và “red square” (một hình vuông màu đỏ).
SDXL 1.0 có số lượng tham số lớn nhất trong số các mô hình ảnh truy cập mở, và được xây dựng trên một kiến trúc mới đầy đột phá gồm mô hình nền tảng 3.5B tham số và bộ refiner 6.6B tham số. Toàn bộ mô hình được cấu thành như một pipeline mixture-of-experts cho latent diffusion: ở giai đoạn đầu, mô hình nền tảng tạo ra các latent (có nhiễu), sau đó chúng được xử lý thêm bởi mô hình tinh chỉnh chuyên cho bước khử nhiễu cuối cùng. Xin lưu ý rằng mô hình nền tảng cũng có thể được dùng như một mô-đun độc lập. Kiến trúc hai giai đoạn này mang lại một cách tiếp cận vững chắc cho việc tạo ảnh và cho kết quả được cải thiện hơn nữa.

Tham khảo

Stability AI Blog: Blog của Stability AI cung cấp thông tin chi tiết về các nghiên cứu và công bố mới nhất của công ty. Qua blog này, bạn có thể tìm thêm thông tin về các mô hình mới nhất như SDXL 1.0.
https://stability.ai/blog

Stable Diffusion: Trang web này cung cấp thông tin chi tiết về công nghệ Stable Diffusion của Stability AI. Đây là thành phần cốt lõi của SDXL 1.0, và thông qua trang web này bạn có thể có được hiểu biết sâu hơn về công nghệ này.
https://stability.ai/stable-diffusion

Discord Community: Cộng đồng Discord này là nơi các nhà nghiên cứu và người dùng của Stability AI cùng tụ họp để chia sẻ và thảo luận về công việc của nhau. Qua cộng đồng này, bạn có thể lắng nghe trải nghiệm từ những người khác đang sử dụng các mô hình như SDXL 1.0.
https://discord.gg/stablediffusion