Z-Image - Mô hình tạo ảnh mạnh mẽ và hiệu quả

(github.com/Tongyi-MAI)

23 điểm bởi GN⁺ 2025-12-08 | 3 bình luận | Chia sẻ qua WhatsApp

Mô hình tạo ảnh của Alibaba đạt hiệu năng cấp Nano Banana Pro và được mã nguồn mở theo giấy phép Apache 2.0
Mô hình tạo ảnh hiệu quả với 6B tham số, dựa trên kiến trúc Single-Stream Diffusion Transformer
Gồm ba phiên bản, trong đó Z-Image-Turbo đạt chất lượng ngang các mô hình cạnh tranh chỉ với 8 bước suy luận, và có thể chạy trong môi trường 16GB VRAM
Z-Image-Edit cung cấp tính năng chỉnh sửa ảnh dựa trên chỉ dẫn ngôn ngữ tự nhiên, còn Z-Image-Base dự kiến được phát hành như mô hình nền tảng cho cộng đồng fine-tune
Mô hình áp dụng kiến trúc S3-DiT để hợp nhất token văn bản, thị giác và VAE thành một chuỗi duy nhất, tối đa hóa hiệu quả tham số
Thông qua các thuật toán Decoupled-DMD và DMDR, mô hình tạo ra hình ảnh chất lượng cao ngay cả với số bước ít, đồng thời ghi nhận hiệu năng hàng đầu trong các mô hình mã nguồn mở

Tổng quan về Z-Image

Z-Image là mô hình nền tảng tạo ảnh cân bằng cả hiệu quả lẫn hiệu năng, sử dụng cấu trúc Single-Stream Diffusion Transformer
Dựa trên 6 tỷ tham số và cung cấp ba biến thể: Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: tạo ảnh chất lượng cao chỉ với 8 lần đánh giá hàm (NFE), với độ trễ suy luận dưới 1 giây trên GPU H800
- Z-Image-Base: mô hình nền không chưng cất, hỗ trợ fine-tune và phát triển tùy biến dựa trên cộng đồng
- Z-Image-Edit: phiên bản chuyên cho chỉnh sửa ảnh, cung cấp khả năng biến đổi ảnh dựa trên ngôn ngữ tự nhiên

Tính năng và hiệu năng chính

Z-Image-Turbo thực hiện chính xác ảnh chân thực cấp độ nhiếp ảnh và render văn bản song ngữ tiếng Anh - tiếng Trung
Tính năng Prompt Enhancer tăng cường khả năng mô tả dựa trên suy luận và tri thức thế giới
Z-Image-Edit hỗ trợ biến đổi ảnh sáng tạo và hiểu chính xác chỉ thị
Ghi nhận hiệu năng hàng đầu trong các mô hình mã nguồn mở trong đánh giá sở thích của con người dựa trên Elo của Alibaba AI Arena

Kiến trúc mô hình (S3-DiT)

Áp dụng cấu trúc Scalable Single-Stream DiT (S3-DiT)
- Kết hợp vào một chuỗi duy nhất văn bản, token ngữ nghĩa thị giác và token VAE của ảnh
- Tối đa hóa hiệu quả tham số so với kiến trúc hai luồng truyền thống
Kiến trúc này cho phép học biểu diễn hợp nhất văn bản - hình ảnh

Thuật toán cốt lõi

Decoupled-DMD
- Decoupled-DMD là thuật toán chưng cất cốt lõi cho phép Z-Image suy luận trong 8 bước
- Tách DMD (Distribution Matching Distillation) truyền thống thành hai cơ chế: tăng cường CFG (CA) và khớp phân phối (DM)
  - CA đóng vai trò là động cơ chính trong quá trình chưng cất
  - DM đóng vai trò chuẩn hóa để duy trì độ ổn định đầu ra và chất lượng
- Bằng cách tách và tối ưu hóa hai cơ chế này, mô hình đạt được tạo ảnh hiệu năng cao ngay cả với số bước ít
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) là kỹ thuật hậu xử lý kết hợp DMD với reinforcement learning (RL)
- RL tối đa hóa hiệu quả của DMD, còn DMD chuẩn hóa RL, tạo thành cấu trúc bổ trợ lẫn nhau
- Nhờ đó, mô hình cải thiện độ khớp ngữ nghĩa, chất lượng thẩm mỹ, tính nhất quán cấu trúc, đồng thời tăng cường khả năng biểu đạt chi tiết tần số cao

Hỗ trợ cộng đồng và hệ sinh thái

Cache-DiT: hỗ trợ tăng tốc suy luận thông qua DBCache, Context Parallelism và Tensor Parallelism
stable-diffusion.cpp: engine C++ cho phép chạy Z-Image ngay cả trong môi trường 4GB VRAM
LeMiCa: cung cấp tăng tốc suy luận ở cấp timestep mà không cần huấn luyện
ComfyUI ZImageLatent: cung cấp giao diện latent tiện lợi ở độ phân giải chính thức

Tóm tắt

Z-Image là mô hình tạo ảnh mã nguồn mở hiệu năng cao kết hợp kiến trúc hiệu quả (S3-DiT) với các kỹ thuật chưng cất đổi mới (Decoupled-DMD, DMDR)
Z-Image-Turbo đồng thời đạt suy luận nhanh và chất lượng cao, đồng thời có thể chạy trên GPU tiêu dùng
Z-Image-Edit hỗ trợ chỉnh sửa ảnh chính xác dựa trên ngôn ngữ tự nhiên
Trên Alibaba AI Arena, mô hình ghi nhận điểm sở thích của con người ở mức hàng đầu trong các mô hình mã nguồn mở
Hệ sinh thái Z-Image đang mở rộng thành nền tảng mô hình tạo sinh đa dụng thông qua tích hợp với nhiều dự án cộng đồng

3 bình luận

crawler 2025-12-09

Mảng vẽ local thực sự đã ở lại với SDXL quá lâu rồi, nên có vẻ như đã xuất hiện một model nền tảng tốt và tôi rất mong đợi.
Trên hết, từ khi Stable Diffusion trở nên nổi tiếng thì kiểm duyệt cũng ngày càng gắt gao đến mức khó học, nên việc model này không có kiểm duyệt thật sự rất đáng nể.

wedding 2025-12-08

Tò mò nên tôi đã thử chạy. Vì không có kiểm duyệt nên đúng là nó có thể trở thành một con dao sắc bén...

GN⁺ 2025-12-08

Ý kiến trên Hacker News

Tuần trước tôi đã thử Z-Image Turbo
- Rất nhanh, khoảng 3 giây trên RTX 4090, và khả năng giữ tính nhất quán của ảnh ở độ phân giải 1536x1024~2048x2048 thật đáng ngạc nhiên
- Với một mô hình 6B tham số thì độ chính xác rất ấn tượng
- Đặc biệt hiệu quả khi dùng để hậu xử lý (refiner) kết quả của Qwen-Image 20b. Qwen hiểu prompt rất tốt nhưng ảnh có xu hướng bị mềm và nhòe lại
- Mẫu thử nghiệm
- Trên RTX 4090 là 3 giây, nhưng trên M1 Ultra thì mất 8 giây mỗi bước, mặc định 9 bước là hơn 1 phút
- Điều đó khiến tôi thấy rõ Apple Silicon đã tụt lại xa thế nào trong việc xử lý các mô hình phi ngôn ngữ
- Trên fal.ai có thể tạo trong chưa tới 1 giây. Kết hợp với LoRA thì có thể tạo ảnh cá nhân hóa trong vòng 3 giây
- So với seedream, nanobanana và các mô hình khác, nó vẫn đủ mạnh để vào top 5 nhờ sự kết hợp giữa tốc độ và chất lượng
- Tuy nhiên trong lúc thử nghiệm chỉ 2 trên 4 bài test vượt qua; ví dụ thanh kitkat có hình dạng và logo hoàn toàn khác, còn DNA armor thì chỉ được thể hiện như chất liệu kim loại bình thường
- Có lỗi chính tả trong link GitHub (gitub), dẫn tới một trang độc hại nên cần cẩn thận
- Trung Quốc đang gần như chống đỡ toàn bộ hệ sinh thái AI open-weight. Nếu thị trường GPU tiêu dùng còn tồn tại trong tương lai thì có lẽ là nhờ Trung Quốc
Thật đáng kinh ngạc khi 6B tham số có thể cho ra kết quả như thế này
- Cộng đồng đang đón nhận mô hình này rất nhanh, còn Flux(2) thì gần như đã bị lãng quên
- Z-Image là một mô hình không bị kiểm duyệt, nên lại càng được ưa chuộng hơn. Trong khi đó BFL, công ty làm ra Flux 2, đã dành phần lớn thông cáo báo chí để nhấn mạnh “an toàn” (tức là kiểm duyệt)
- Tuy nhiên “an toàn” đó thực ra nói về chính sách dịch vụ trực tuyến chứ không phải bản thân mô hình. Trên thực tế vẫn có thể tạo mà không bị hạn chế
- Việc nhắc đến “an toàn” về cơ bản chỉ là thông điệp gửi cho nhà đầu tư rằng “chúng tôi sẽ không làm quý vị khó xử”
- Cách dùng từ “lobotomizing” thật thú vị. Tôi tò mò không biết áp dụng nó cho mô hình tạo ảnh thì sẽ mang nghĩa gì
- Nhưng nếu mô hình này là hàng Trung Quốc thì có thể nó sẽ không tạo được ảnh Tập Cận Bình
Gần đây podcast Pretrained đã bàn về mô hình này
- Nó có kiến trúc hiệu quả nhờ tái sử dụng backbone sẵn có cho mã hóa văn bản và semantic token
- Được huấn luyện bằng dữ liệu caption tổng hợp có độ dài đa dạng nên khả năng hiểu văn bản cao
- Văn bản OCR trong ảnh cũng được đưa vào huấn luyện nên chất lượng tạo chữ được cải thiện. Nano Banana Pro cũng đã tiến bộ theo hướng tương tự
Nếu xem PDF demo chính thức thì có gần 50 ảnh chỉ có nữ, còn ảnh chỉ có nam thì chỉ vỏn vẹn 2 ảnh
- Thị trường mục tiêu mà các nhà phát triển hình dung là rất rõ ràng
- Thực tế nếu nhìn vào các trang như civitai thì phần lớn ảnh do người dùng tạo và các LoRA cũng phản ánh đúng thị trường đó
- Cuối cùng thì công nghệ này đang được thúc đẩy bởi ham muốn của nam giới trẻ
- Nhìn phản ứng của cộng đồng r/stablediffusion thì Flux 2 có vẻ gần như đã chết yểu. Lượng kiến thức thì nhiều hơn hẳn, nhưng Z-Image lại được ưa chuộng hơn
- Điều thú vị là một trong các mẫu nam lại chính là Lương Triều Vỹ (Tony Leung) mà không hề chỉnh sửa
- Vì mô hình ở trạng thái không kiểm duyệt, có lẽ nó càng phù hợp hơn với thị trường đó
Trải nghiệm thực tế của tôi khá thất vọng
- Nhìn bề ngoài thì ổn, nhưng thực ra khả năng làm theo prompt kém, và những cụm như “most cultures” lại biến thành ảnh phong cách hoạt hình
Z-Image được đánh giá là người kế nhiệm thực sự của Stable Diffusion 1.5
- Chất lượng, khả năng mở rộng và khả năng chạy cục bộ đều đã được cải thiện, và hệ sinh thái đang hình thành rất nhanh
- Tuy vậy tôi vẫn muốn hỏi là có phải mọi người đã quên SDXL rồi không. Nó mới ra mắt cách đây chỉ 2 năm rưỡi
Tôi đã thử trên Framework Desktop, nhưng ComfyUI gây ra lỗi kernel amdgpu vào khoảng bước thứ 40 nên tôi phải tự viết mã để vòng qua
- Tôi có được kết quả khá ổn với LoRA, và chỉ với 8 bước (15~20 giây) cũng đủ tạo ảnh nhìn rất ổn
- Tôi đã tạo một node tăng cường prompt dựa trên llama.cpp để nâng chất lượng
Thật đáng ngạc nhiên khi chỉ với 16GiB mà có thể chứa được lượng tri thức thế giới như vậy
- Dù vẫn còn ở giai đoạn đầu, nhưng về sau AI cục bộ sẽ phát triển theo hướng cá nhân hóa hơn và có thể hack được
- Tôi nghĩ tương lai sẽ nghiêng về các mô hình tập trung vào trí tuệ như Nano Banana
- Muốn khai thác thật sự thì phải có khả năng tiêm trực tiếp các lớp điều khiển vào mô hình
- Tôi hy vọng một ngày nào đó mô hình cỡ Nano Banana Pro cũng sẽ chạy được cục bộ
Nhưng mô hình này cũng chịu ảnh hưởng của kiểm duyệt Trung Quốc
- Nếu yêu cầu “Tank Man” hay “Lady Liberty Hong Kong” thì nó chỉ in ra dòng “Maybe Not Safe”
Với tư cách người mới tìm hiểu AI, tôi từng thắc mắc liệu có thể chạy nó trên MacBook 24GB không
- Trên thực tế, MacBook Pro M5 mất 399 giây để tạo một ảnh, và trong lúc đó hệ thống bị treo
- Trên replicate.com thì một ảnh chỉ mất 1.5 giây, chi phí cỡ 1 USD cho 1000 ảnh nên hiệu quả hơn nhiều
- Kết luận là chạy cục bộ trên Mac rất kém hiệu quả
- Nếu là người mới thì ComfyUI cho macOS là dễ nhất. Chỉ cần nạp workflow Z-Image là có thể tự động cài mô hình và chạy
- Ngoài ra cũng có cách chạy bằng koboldcpp trên Linux, Windows và Mac. Có thể nạp file cấu hình và dùng ngay trên máy chủ cục bộ (http://localhost:5001/sdui)