- Mô hình tạo ảnh của Alibaba đạt hiệu năng cấp Nano Banana Pro và được mã nguồn mở theo giấy phép Apache 2.0
- Mô hình tạo ảnh hiệu quả với 6B tham số, dựa trên kiến trúc Single-Stream Diffusion Transformer
- Gồm ba phiên bản, trong đó Z-Image-Turbo đạt chất lượng ngang các mô hình cạnh tranh chỉ với 8 bước suy luận, và có thể chạy trong môi trường 16GB VRAM
- Z-Image-Edit cung cấp tính năng chỉnh sửa ảnh dựa trên chỉ dẫn ngôn ngữ tự nhiên, còn Z-Image-Base dự kiến được phát hành như mô hình nền tảng cho cộng đồng fine-tune
- Mô hình áp dụng kiến trúc S3-DiT để hợp nhất token văn bản, thị giác và VAE thành một chuỗi duy nhất, tối đa hóa hiệu quả tham số
- Thông qua các thuật toán Decoupled-DMD và DMDR, mô hình tạo ra hình ảnh chất lượng cao ngay cả với số bước ít, đồng thời ghi nhận hiệu năng hàng đầu trong các mô hình mã nguồn mở
Tổng quan về Z-Image
- Z-Image là mô hình nền tảng tạo ảnh cân bằng cả hiệu quả lẫn hiệu năng, sử dụng cấu trúc Single-Stream Diffusion Transformer
- Dựa trên 6 tỷ tham số và cung cấp ba biến thể: Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: tạo ảnh chất lượng cao chỉ với 8 lần đánh giá hàm (NFE), với độ trễ suy luận dưới 1 giây trên GPU H800
- Z-Image-Base: mô hình nền không chưng cất, hỗ trợ fine-tune và phát triển tùy biến dựa trên cộng đồng
- Z-Image-Edit: phiên bản chuyên cho chỉnh sửa ảnh, cung cấp khả năng biến đổi ảnh dựa trên ngôn ngữ tự nhiên
Tính năng và hiệu năng chính
- Z-Image-Turbo thực hiện chính xác ảnh chân thực cấp độ nhiếp ảnh và render văn bản song ngữ tiếng Anh - tiếng Trung
- Tính năng Prompt Enhancer tăng cường khả năng mô tả dựa trên suy luận và tri thức thế giới
- Z-Image-Edit hỗ trợ biến đổi ảnh sáng tạo và hiểu chính xác chỉ thị
- Ghi nhận hiệu năng hàng đầu trong các mô hình mã nguồn mở trong đánh giá sở thích của con người dựa trên Elo của Alibaba AI Arena
Kiến trúc mô hình (S3-DiT)
- Áp dụng cấu trúc Scalable Single-Stream DiT (S3-DiT)
- Kết hợp vào một chuỗi duy nhất văn bản, token ngữ nghĩa thị giác và token VAE của ảnh
- Tối đa hóa hiệu quả tham số so với kiến trúc hai luồng truyền thống
- Kiến trúc này cho phép học biểu diễn hợp nhất văn bản - hình ảnh
Thuật toán cốt lõi
-
Decoupled-DMD
- Decoupled-DMD là thuật toán chưng cất cốt lõi cho phép Z-Image suy luận trong 8 bước
- Tách DMD (Distribution Matching Distillation) truyền thống thành hai cơ chế: tăng cường CFG (CA) và khớp phân phối (DM)
- CA đóng vai trò là động cơ chính trong quá trình chưng cất
- DM đóng vai trò chuẩn hóa để duy trì độ ổn định đầu ra và chất lượng
- Bằng cách tách và tối ưu hóa hai cơ chế này, mô hình đạt được tạo ảnh hiệu năng cao ngay cả với số bước ít
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) là kỹ thuật hậu xử lý kết hợp DMD với reinforcement learning (RL)
- RL tối đa hóa hiệu quả của DMD, còn DMD chuẩn hóa RL, tạo thành cấu trúc bổ trợ lẫn nhau
- Nhờ đó, mô hình cải thiện độ khớp ngữ nghĩa, chất lượng thẩm mỹ, tính nhất quán cấu trúc, đồng thời tăng cường khả năng biểu đạt chi tiết tần số cao
Hỗ trợ cộng đồng và hệ sinh thái
- Cache-DiT: hỗ trợ tăng tốc suy luận thông qua DBCache, Context Parallelism và Tensor Parallelism
- stable-diffusion.cpp: engine C++ cho phép chạy Z-Image ngay cả trong môi trường 4GB VRAM
- LeMiCa: cung cấp tăng tốc suy luận ở cấp timestep mà không cần huấn luyện
- ComfyUI ZImageLatent: cung cấp giao diện latent tiện lợi ở độ phân giải chính thức
Tóm tắt
- Z-Image là mô hình tạo ảnh mã nguồn mở hiệu năng cao kết hợp kiến trúc hiệu quả (S3-DiT) với các kỹ thuật chưng cất đổi mới (Decoupled-DMD, DMDR)
- Z-Image-Turbo đồng thời đạt suy luận nhanh và chất lượng cao, đồng thời có thể chạy trên GPU tiêu dùng
- Z-Image-Edit hỗ trợ chỉnh sửa ảnh chính xác dựa trên ngôn ngữ tự nhiên
- Trên Alibaba AI Arena, mô hình ghi nhận điểm sở thích của con người ở mức hàng đầu trong các mô hình mã nguồn mở
- Hệ sinh thái Z-Image đang mở rộng thành nền tảng mô hình tạo sinh đa dụng thông qua tích hợp với nhiều dự án cộng đồng
3 bình luận
Mảng vẽ local thực sự đã ở lại với SDXL quá lâu rồi, nên có vẻ như đã xuất hiện một model nền tảng tốt và tôi rất mong đợi.
Trên hết, từ khi Stable Diffusion trở nên nổi tiếng thì kiểm duyệt cũng ngày càng gắt gao đến mức khó học, nên việc model này không có kiểm duyệt thật sự rất đáng nể.
Tò mò nên tôi đã thử chạy. Vì không có kiểm duyệt nên đúng là nó có thể trở thành một con dao sắc bén...
Ý kiến trên Hacker News
Tuần trước tôi đã thử Z-Image Turbo
gitub), dẫn tới một trang độc hại nên cần cẩn thậnThật đáng kinh ngạc khi 6B tham số có thể cho ra kết quả như thế này
Gần đây podcast Pretrained đã bàn về mô hình này
Nếu xem PDF demo chính thức thì có gần 50 ảnh chỉ có nữ, còn ảnh chỉ có nam thì chỉ vỏn vẹn 2 ảnh
Trải nghiệm thực tế của tôi khá thất vọng
Z-Image được đánh giá là người kế nhiệm thực sự của Stable Diffusion 1.5
Tôi đã thử trên Framework Desktop, nhưng ComfyUI gây ra lỗi kernel amdgpu vào khoảng bước thứ 40 nên tôi phải tự viết mã để vòng qua
Thật đáng ngạc nhiên khi chỉ với 16GiB mà có thể chứa được lượng tri thức thế giới như vậy
Nhưng mô hình này cũng chịu ảnh hưởng của kiểm duyệt Trung Quốc
Với tư cách người mới tìm hiểu AI, tôi từng thắc mắc liệu có thể chạy nó trên MacBook 24GB không