- Là mô hình tạo ảnh thế hệ mới, triển khai một kiến trúc thống nhất tích hợp tạo/chỉnh sửa văn bản và hình ảnh
- Hỗ trợ chỉ thị 1k token, cho phép tạo trực tiếp infographic phức tạp như PPT, poster, truyện tranh
- Đồng thời hiện thực hóa mô tả chân thực chi tiết ở độ phân giải 2K và render chữ chính xác
- Tinh gọn mô hình để tăng tốc độ suy luận, đồng thời đạt hiệu năng nổi bật trên cả benchmark text-to-image và image-to-image
- Tối đa hóa hiệu suất tạo nội dung hình ảnh chuyên nghiệp với năm đặc tính cốt lõi: độ chính xác (准), độ phức tạp (多), tính thẩm mỹ (美), tính chân thực (真), và khả năng căn chỉnh (齐)
Tổng quan về Qwen-Image-2.0
- Qwen-Image-2.0 là mô hình nền tảng tạo ảnh thế hệ mới, sử dụng một kiến trúc thống nhất tích hợp render văn bản và chỉnh sửa hình ảnh
- Xử lý chỉ thị 1k token để tạo trực tiếp infographic chuyên nghiệp như PPT, poster, truyện tranh
- Biểu đạt các cảnh chân thực chi tiết như con người, thiên nhiên, kiến trúc ở độ phân giải 2K
- Tích hợp hiểu và tạo văn bản để thực hiện cả tạo ảnh lẫn chỉnh sửa trong cùng một chế độ
- Kiến trúc mô hình tinh gọn giúp đạt tốc độ suy luận nhanh
- Trong bài kiểm thử mù của AI Arena, mô hình ghi nhận hiệu năng xuất sắc ở cả bài toán text-to-image lẫn image-to-image
Quá trình phát triển mô hình
- Dòng Qwen-Image đã phát triển song song nhánh tạo sinh và nhánh chỉnh sửa
- Tháng 8/2025, Qwen-Image tăng cường độ chính xác của render văn bản
- Tháng 12/2025, Qwen-Image-2512 cải thiện chi tiết và photorealism
- Ở nhánh chỉnh sửa, phạm vi được mở rộng từ chỉnh sửa ảnh đơn (tháng 8) → chỉnh sửa đa ảnh (tháng 9) → cải thiện tính nhất quán (tháng 12)
- Qwen-Image-2.0 kết hợp hai nhánh này thành một mô hình tích hợp duy nhất, đạt kết quả vượt trội ở cả tạo sinh lẫn chỉnh sửa
Độ chính xác (准) và độ phức tạp (多)
- Mô hình có thể hiện thực chính xác cấu trúc “ảnh trong ảnh” phức tạp, giúp nâng cao hiệu quả làm PPT
- Ví dụ, tạo một cảnh tổng hợp với hai hình của cùng một người được đặt trên dưới mà vẫn giữ được tính nhất quán thị giác
- Thông qua chỉ thị 1k token, mô hình có thể render trọn vẹn infographic nhiều tầng (ví dụ: báo cáo A/B testing)
- Có thể tạo tài liệu trực quan ở cấp độ báo cáo chuyên nghiệp với nhiều thành phần như bảng biểu, đồ thị, số liệu, chú thích
- Tận dụng tri thức thế giới của LLM để tự động mở rộng các yêu cầu đơn giản thành prompt mô tả chi tiết
- Ví dụ: yêu cầu “poster du lịch 2 ngày ở Hàng Châu” có thể được chuyển thành bố cục chi tiết về phong cách, nền và thành phần chữ
Tính thẩm mỹ (美)
- Hiện thực hóa sự hài hòa tạo hình giữa văn bản và hình ảnh
- Tái hiện chính xác phong cách thư họa truyền thống Trung Hoa với bố cục thơ và tranh hợp nhất
- Biểu đạt chính xác nhiều kiểu chữ khác nhau (ví dụ: 瘦金体, souziti)
- Ví dụ, có thể tái hiện gần như hoàn hảo bằng souziti tranh thủy mặc có kèm thơ thời Tống hoặc tác phẩm 「兰亭序」 của Vương Hi Chi
Tính chân thực (真)
- Biểu đạt chính xác phản xạ quang học, chất liệu và phối cảnh, từ đó tăng cường cảm giác chân thực
- Ví dụ: render chính xác chữ trên các vật liệu khác nhau như bảng kính, quần áo, bìa tạp chí
- Hiện thực hóa khả năng biểu đạt tích hợp ánh sáng, texture và chất liệu ở cấp độ poster điện ảnh
- Ví dụ: trong poster 「千灯问心」, bề mặt kim loại, mưa và chất liệu vải được hòa quyện tự nhiên
Khả năng căn chỉnh (齐)
- Tự động điều chỉnh căn hàng và bố cục trong các cấu trúc nhiều văn bản như lịch, truyện tranh, infographic
- Ví dụ: căn chính xác ngày tháng, lịch âm và chú thích trong lưới của lịch tháng 2/2026
- Căn giữa văn bản trong bong bóng thoại của truyện tranh để tạo luồng hội thoại tự nhiên
- Trong infographic OKR, tự động căn chỉnh các khối chữ và mũi tên, đồng thời phân biệt màu sắc
Tăng cường photorealism
- Phân biệt được hơn 23 sắc độ xanh lá, qua đó thể hiện tính chân thực sinh thái của rừng mùa hè
- Mô tả tỉ mỉ cả texture của lá, ánh phản chiếu, độ ẩm và hạt bụi trong không khí
- Tái hiện chính xác cơ bắp, biểu cảm và texture của người và động vật
- Ví dụ: trong cảnh con ngựa giẫm lên người, mô hình thể hiện cả độ căng cơ, texture da và các hạt bụi
Tính năng chỉnh sửa ảnh
- Là mô hình Omni tích hợp tạo sinh và chỉnh sửa, nên các cải tiến ở phía tạo sinh cũng được phản ánh trực tiếp vào chỉnh sửa
- Có thể chèn thơ và chữ lên ảnh có sẵn
- Ghép người từ hai ảnh và vẫn giữ được sự khớp tự nhiên về ánh sáng và bóng đổ
- Cũng có thể chỉnh sửa pha trộn ảnh thật với nhân vật hoạt hình
- Ví dụ: trong ảnh ghép hai người hoặc chèn nhân vật lên ảnh thành phố, mô hình mang lại kết quả tích hợp tự nhiên
Ảnh header blog “Qwen Street”
- Lấy khung cảnh phố mùa đông ở Bắc Kinh làm nền, với hai cửa hàng tượng trưng cho các chức năng cốt lõi của Qwen-Image-2.0
- Biển hiệu tiệm thư pháp bên trái: “文字渲染”, bên trong có “专业幻灯片 中英文海报 高级信息图”
- Biển hiệu tiệm hoa bên phải: “真实质感”, ký hiệu trên cửa “2k resolution”
- Bảng đen mà người tuyết ở trung tâm cầm: “Qwen-Image-2.0 正式发布”
- Trên phố xuất hiện một người giao hàng với dòng chữ “更小模型,更快速度”
Kết luận
- Qwen-Image-2.0 là mô hình tạo ảnh tích hợp hội tụ đủ độ chính xác, độ phức tạp, tính thẩm mỹ, tính chân thực và khả năng căn chỉnh
- Mô hình xóa nhòa ranh giới giữa văn bản và hình ảnh, nâng mạnh mức độ tự động hóa trong sản xuất infographic chuyên nghiệp và nội dung trực quan
- Khi sử dụng cho nghiên cứu hoặc sáng tạo, nên trích dẫn Qwen-Image Technical Report (arXiv:2508.02324)
1 bình luận
Ý kiến trên Hacker News
Meme này bắt nguồn từ sự việc MC nổi tiếng Trung Quốc Thái Khang Vĩnh (蔡康永) mặc một bộ trang phục có hình con ngựa gắn trên lưng tại lễ trao giải
Khi đó ông vướng tin đồn với một người đàn ông tên là “Mã Khải Nhân (马启仁)”, mà tên này trong tiếng Trung lại đồng âm với “người cưỡi ngựa (马骑人)”
Sự việc này lan truyền trên Internet và trở thành meme, nên ví dụ “horse riding man” không hẳn là hoàn toàn vô cớ
Tuy vậy, bản thân hình ảnh này vẫn mang lại bầu không khí rùng rợn và kỳ dị
Liên kết ảnh
Thông thường thì ngược lại, “người cưỡi ngựa” dễ hơn, còn “ngựa cưỡi người” là một embedding khó hơn
Khi xem prompt đã được dịch, tôi cũng thấy có sắc thái châm biếm kiểu “năm Ngựa chinh phục kỹ sư da trắng”
Tôi không muốn biết SD1.5 sẽ vẽ chuyện này ra sao
Tức là cái tên nghe giống “người cưỡi ngựa”, nhưng không phải bản dịch trực tiếp
Bài liên quan: Horse Rides Astronaut Redux
Ví dụ, các công ty Mỹ có lẽ sẽ lo ngại phản ứng ngược nếu dùng kiểu ảnh này trong lịch trình hay tài liệu quảng bá
Ảnh ví dụ
Nó tạo tốt ảnh “phi hành gia cưỡi ngựa”, nhưng cuối cùng vẫn thất bại với ảnh “ngựa cưỡi phi hành gia”
Vấn đề này tiếp tục tồn tại cả ở các mô hình mới hơn, và đội ngũ Qwen Image hẳn cũng đã ý thức về bài benchmark khó này
Cuối cùng thì “phi hành gia = con người”, nên bài test này cũng kết nối với meme ở Trung Quốc
1️⃣ Nhìn vào mô hình phát hành trước đây, khả năng cao sẽ có open-weight trong vòng 3~4 tuần
2️⃣ Có vẻ họ đang nhắm tới mô hình có thể chạy trên GPU cấu hình thấp, giống như Z‑Image Turbo(6B), Flux.2 Klein(9B)
3️⃣ Đây là một mô hình duy nhất tích hợp cả tạo và chỉnh sửa ảnh, nên không cần tách riêng Qwen‑Image và Qwen‑Edit
4️⃣ Trong GenAI Showdown của tôi, Qwen‑Image đứng đầu về hiệu năng chỉnh sửa trong các mô hình cục bộ, còn hiệu năng tạo ảnh cũng thuộc nhóm đầu
Khi có bản local, tôi sẽ thêm nó vào trang
Mô hình 20B thì chỉ cần 20GB RAM là đủ, và quy mô như vậy thậm chí có thể chạy bằng iGPU
Cấu hình RAM hợp nhất 128GB cũng có thể làm với khoảng 2.200 USD
Đây là một setup rẻ hơn rất nhiều so với việc mua riêng GPU
Nó dùng VAE riêng nhưng có vấn đề artifact tần số cao
Qwen 2 mới chỉ còn 7B tham số nên nhẹ hơn rất nhiều, đồng thời được nâng cấp lên Qwen 3 VL
Giờ đây nó đã tiến hóa thành mô hình Omni kết hợp cả Image và Edit
Z‑Image, Klein và Qwen, cả ba đang cùng cạnh tranh cho vị trí “SDXL2”
Nếu open-weight được công bố thì sẽ thực sự rất thú vị
Cứ mỗi 3~4 tháng SOTA lại thay đổi, và đột phá của quý trước trở thành sản phẩm API
Giờ nút thắt không còn là mô hình mà là người xử lý prompt
Mẫu hình tương tự cũng xuất hiện trong tạo mã
Nó được cấu thành từ mô tả cực kỳ chân thực như thảo nguyên hoang vu, bụi đất, cảnh con ngựa màu nâu đè nghiến người đàn ông
Tổng thể là một hình ảnh thể hiện sự căng thẳng nguyên sơ và sự va chạm của sức mạnh sinh học
Liên kết liên quan
Nhưng nó không hỗ trợ tạo ảnh, nên tôi tò mò mọi người dùng công cụ gì để chạy mô hình diffusion như Qwen trên Linux
Cộng đồng lo luôn cả việc lượng tử hóa, chuyển đổi sang định dạng gguf và tối ưu tốc độ
Tôi chủ yếu dùng
diffusers; dù chậm hơn nhưng hỗ trợ kiến trúc mới rất nhanhTrang web / Ghi chú phát hành
Nên dùng dấu câu dành cho viết dọc, ví dụ như ︒, thì sẽ tự nhiên hơn
LinkedIn đang ngập tràn những hình ảnh kiểu đó
Gần như không có ai thật sự biết cách làm hoặc mô tả một infographic tốt
Xem ví dụ khác trong chuỗi Gas Town
Lần công bố gần nhất là vào khoảng tháng 12 năm 2025
Nếu dùng đúng prompt giống blog thì hoạt động tốt, nhưng chỉ cần thay đổi đầu vào một chút là số lượng panel bị lệch hoặc lời thoại tiếng Anh lại chuyển thành tiếng Trung
Nói cách khác, đây vẫn là một tính năng thiếu nhất quán
Dù sao thì cũng là lựa chọn của họ