10 điểm bởi GN⁺ 2026-02-11 | 1 bình luận | Chia sẻ qua WhatsApp
  • Là mô hình tạo ảnh thế hệ mới, triển khai một kiến trúc thống nhất tích hợp tạo/chỉnh sửa văn bản và hình ảnh
  • Hỗ trợ chỉ thị 1k token, cho phép tạo trực tiếp infographic phức tạp như PPT, poster, truyện tranh
  • Đồng thời hiện thực hóa mô tả chân thực chi tiết ở độ phân giải 2Krender chữ chính xác
  • Tinh gọn mô hình để tăng tốc độ suy luận, đồng thời đạt hiệu năng nổi bật trên cả benchmark text-to-image và image-to-image
  • Tối đa hóa hiệu suất tạo nội dung hình ảnh chuyên nghiệp với năm đặc tính cốt lõi: độ chính xác (准), độ phức tạp (多), tính thẩm mỹ (美), tính chân thực (真), và khả năng căn chỉnh (齐)

Tổng quan về Qwen-Image-2.0

  • Qwen-Image-2.0 là mô hình nền tảng tạo ảnh thế hệ mới, sử dụng một kiến trúc thống nhất tích hợp render văn bản và chỉnh sửa hình ảnh
    • Xử lý chỉ thị 1k token để tạo trực tiếp infographic chuyên nghiệp như PPT, poster, truyện tranh
    • Biểu đạt các cảnh chân thực chi tiết như con người, thiên nhiên, kiến trúc ở độ phân giải 2K
    • Tích hợp hiểu và tạo văn bản để thực hiện cả tạo ảnh lẫn chỉnh sửa trong cùng một chế độ
    • Kiến trúc mô hình tinh gọn giúp đạt tốc độ suy luận nhanh
  • Trong bài kiểm thử mù của AI Arena, mô hình ghi nhận hiệu năng xuất sắc ở cả bài toán text-to-image lẫn image-to-image

Quá trình phát triển mô hình

  • Dòng Qwen-Image đã phát triển song song nhánh tạo sinh và nhánh chỉnh sửa
    • Tháng 8/2025, Qwen-Image tăng cường độ chính xác của render văn bản
    • Tháng 12/2025, Qwen-Image-2512 cải thiện chi tiết và photorealism
    • Ở nhánh chỉnh sửa, phạm vi được mở rộng từ chỉnh sửa ảnh đơn (tháng 8) → chỉnh sửa đa ảnh (tháng 9) → cải thiện tính nhất quán (tháng 12)
  • Qwen-Image-2.0 kết hợp hai nhánh này thành một mô hình tích hợp duy nhất, đạt kết quả vượt trội ở cả tạo sinh lẫn chỉnh sửa

Độ chính xác (准) và độ phức tạp (多)

  • Mô hình có thể hiện thực chính xác cấu trúc “ảnh trong ảnh” phức tạp, giúp nâng cao hiệu quả làm PPT
    • Ví dụ, tạo một cảnh tổng hợp với hai hình của cùng một người được đặt trên dưới mà vẫn giữ được tính nhất quán thị giác
    Quảng cáo
  • Thông qua chỉ thị 1k token, mô hình có thể render trọn vẹn infographic nhiều tầng (ví dụ: báo cáo A/B testing)
    • Có thể tạo tài liệu trực quan ở cấp độ báo cáo chuyên nghiệp với nhiều thành phần như bảng biểu, đồ thị, số liệu, chú thích
  • Tận dụng tri thức thế giới của LLM để tự động mở rộng các yêu cầu đơn giản thành prompt mô tả chi tiết
    • Ví dụ: yêu cầu “poster du lịch 2 ngày ở Hàng Châu” có thể được chuyển thành bố cục chi tiết về phong cách, nền và thành phần chữ

Tính thẩm mỹ (美)

  • Hiện thực hóa sự hài hòa tạo hình giữa văn bản và hình ảnh
    • Tái hiện chính xác phong cách thư họa truyền thống Trung Hoa với bố cục thơ và tranh hợp nhất
    • Biểu đạt chính xác nhiều kiểu chữ khác nhau (ví dụ: 瘦金体, souziti)
  • Ví dụ, có thể tái hiện gần như hoàn hảo bằng souziti tranh thủy mặc có kèm thơ thời Tống hoặc tác phẩm 「兰亭序」 của Vương Hi Chi

Tính chân thực (真)

  • Biểu đạt chính xác phản xạ quang học, chất liệu và phối cảnh, từ đó tăng cường cảm giác chân thực
    • Ví dụ: render chính xác chữ trên các vật liệu khác nhau như bảng kính, quần áo, bìa tạp chí
    Quảng cáo
  • Hiện thực hóa khả năng biểu đạt tích hợp ánh sáng, texture và chất liệu ở cấp độ poster điện ảnh
    • Ví dụ: trong poster 「千灯问心」, bề mặt kim loại, mưa và chất liệu vải được hòa quyện tự nhiên

Khả năng căn chỉnh (齐)

  • Tự động điều chỉnh căn hàng và bố cục trong các cấu trúc nhiều văn bản như lịch, truyện tranh, infographic
    • Ví dụ: căn chính xác ngày tháng, lịch âm và chú thích trong lưới của lịch tháng 2/2026
    • Căn giữa văn bản trong bong bóng thoại của truyện tranh để tạo luồng hội thoại tự nhiên
    • Trong infographic OKR, tự động căn chỉnh các khối chữ và mũi tên, đồng thời phân biệt màu sắc

Tăng cường photorealism

  • Phân biệt được hơn 23 sắc độ xanh lá, qua đó thể hiện tính chân thực sinh thái của rừng mùa hè
    • Mô tả tỉ mỉ cả texture của lá, ánh phản chiếu, độ ẩm và hạt bụi trong không khí
  • Tái hiện chính xác cơ bắp, biểu cảm và texture của người và động vật
    • Ví dụ: trong cảnh con ngựa giẫm lên người, mô hình thể hiện cả độ căng cơ, texture da và các hạt bụi
    Quảng cáo

Tính năng chỉnh sửa ảnh

  • mô hình Omni tích hợp tạo sinh và chỉnh sửa, nên các cải tiến ở phía tạo sinh cũng được phản ánh trực tiếp vào chỉnh sửa
    • Có thể chèn thơ và chữ lên ảnh có sẵn
    • Ghép người từ hai ảnh và vẫn giữ được sự khớp tự nhiên về ánh sáng và bóng đổ
    • Cũng có thể chỉnh sửa pha trộn ảnh thật với nhân vật hoạt hình
  • Ví dụ: trong ảnh ghép hai người hoặc chèn nhân vật lên ảnh thành phố, mô hình mang lại kết quả tích hợp tự nhiên

Ảnh header blog “Qwen Street”

  • Lấy khung cảnh phố mùa đông ở Bắc Kinh làm nền, với hai cửa hàng tượng trưng cho các chức năng cốt lõi của Qwen-Image-2.0
    • Biển hiệu tiệm thư pháp bên trái: “文字渲染”, bên trong có “专业幻灯片 中英文海报 高级信息图”
    • Biển hiệu tiệm hoa bên phải: “真实质感”, ký hiệu trên cửa “2k resolution”
    • Bảng đen mà người tuyết ở trung tâm cầm: “Qwen-Image-2.0 正式发布”
    • Trên phố xuất hiện một người giao hàng với dòng chữ “更小模型,更快速度”

Kết luận

  • Qwen-Image-2.0 là mô hình tạo ảnh tích hợp hội tụ đủ độ chính xác, độ phức tạp, tính thẩm mỹ, tính chân thực và khả năng căn chỉnh
  • Mô hình xóa nhòa ranh giới giữa văn bản và hình ảnh, nâng mạnh mức độ tự động hóa trong sản xuất infographic chuyên nghiệp và nội dung trực quan
  • Khi sử dụng cho nghiên cứu hoặc sáng tạo, nên trích dẫn Qwen-Image Technical Report (arXiv:2508.02324)

1 bình luận

 
GN⁺ 2026-02-11
Ý kiến trên Hacker News
  • Có nhiều ý kiến cho rằng ví dụ “người cưỡi ngựa (horse riding man)” quá kỳ quái, nên tôi muốn giải thích bối cảnh
    Meme này bắt nguồn từ sự việc MC nổi tiếng Trung Quốc Thái Khang Vĩnh (蔡康永) mặc một bộ trang phục có hình con ngựa gắn trên lưng tại lễ trao giải
    Khi đó ông vướng tin đồn với một người đàn ông tên là “Mã Khải Nhân (马启仁)”, mà tên này trong tiếng Trung lại đồng âm với “người cưỡi ngựa (马骑人)”
    Sự việc này lan truyền trên Internet và trở thành meme, nên ví dụ “horse riding man” không hẳn là hoàn toàn vô cớ
    Tuy vậy, bản thân hình ảnh này vẫn mang lại bầu không khí rùng rợn và kỳ dị
    Liên kết ảnh
    • Đây là một bối cảnh thú vị. Những prompt như vậy cũng có vai trò thử nghiệm không gian tiềm ẩn (latent space) của trình tạo ảnh
      Thông thường thì ngược lại, “người cưỡi ngựa” dễ hơn, còn “ngựa cưỡi người” là một embedding khó hơn
      Khi xem prompt đã được dịch, tôi cũng thấy có sắc thái châm biếm kiểu “năm Ngựa chinh phục kỹ sư da trắng”
      Tôi không muốn biết SD1.5 sẽ vẽ chuyện này ra sao
    • Theo bài viết, tên thật là 马启仁 chứ không phải 马骑人
      Tức là cái tên nghe giống “người cưỡi ngựa”, nhưng không phải bản dịch trực tiếp
    • Trong giới tạo ảnh cũng có bài toán “phi hành gia cưỡi ngựa (astronaut riding a horse)
      Bài liên quan: Horse Rides Astronaut Redux
    • Tôi tò mò không biết ở Trung Quốc có sự ác cảm với ảnh tạo bởi AI giống như ở Mỹ không
      Ví dụ, các công ty Mỹ có lẽ sẽ lo ngại phản ứng ngược nếu dùng kiểu ảnh này trong lịch trình hay tài liệu quảng bá
      Ảnh ví dụ
    • Một ảnh hưởng khác là vấn đề nổi tiếng của DALL‑E 2
      Nó tạo tốt ảnh “phi hành gia cưỡi ngựa”, nhưng cuối cùng vẫn thất bại với ảnh “ngựa cưỡi phi hành gia”
      Vấn đề này tiếp tục tồn tại cả ở các mô hình mới hơn, và đội ngũ Qwen Image hẳn cũng đã ý thức về bài benchmark khó này
      Cuối cùng thì “phi hành gia = con người”, nên bài test này cũng kết nối với meme ở Trung Quốc
  • Tôi tổng hợp vài suy nghĩ
    1️⃣ Nhìn vào mô hình phát hành trước đây, khả năng cao sẽ có open-weight trong vòng 3~4 tuần
    2️⃣ Có vẻ họ đang nhắm tới mô hình có thể chạy trên GPU cấu hình thấp, giống như Z‑Image Turbo(6B), Flux.2 Klein(9B)
    3️⃣ Đây là một mô hình duy nhất tích hợp cả tạo và chỉnh sửa ảnh, nên không cần tách riêng Qwen‑Image và Qwen‑Edit
    4️⃣ Trong GenAI Showdown của tôi, Qwen‑Image đứng đầu về hiệu năng chỉnh sửa trong các mô hình cục bộ, còn hiệu năng tạo ảnh cũng thuộc nhóm đầu
    Khi có bản local, tôi sẽ thêm nó vào trang
    • Để giải thích cho người không quen kỹ thuật, nếu lượng tử hóa (quantization) tốt thì LLM có thể chạy ở mức khoảng 1 byte cho mỗi tham số
      Mô hình 20B thì chỉ cần 20GB RAM là đủ, và quy mô như vậy thậm chí có thể chạy bằng iGPU
      Cấu hình RAM hợp nhất 128GB cũng có thể làm với khoảng 2.200 USD
      Đây là một setup rẻ hơn rất nhiều so với việc mua riêng GPU
    • Về mặt kỹ thuật, Qwen 2512 có 19B tham số và ở FP16 là 40GB, còn FP8 thì vừa với 3090
      Nó dùng VAE riêng nhưng có vấn đề artifact tần số cao
      Qwen 2 mới chỉ còn 7B tham số nên nhẹ hơn rất nhiều, đồng thời được nâng cấp lên Qwen 3 VL
      Giờ đây nó đã tiến hóa thành mô hình Omni kết hợp cả Image và Edit
      Z‑Image, Klein và Qwen, cả ba đang cùng cạnh tranh cho vị trí “SDXL2”
      Nếu open-weight được công bố thì sẽ thực sự rất thú vị
  • Đã có một giai đoạn ngắn mà Midjourney giống như đỉnh cao của tạo ảnh
    • Chẳng phải bây giờ vẫn vậy sao? Nhiều nhà sáng tạo mà tôi biết vẫn thích Midjourney vì gu thẩm mỹ mang tính chủ quan của nó
    • Tôi tự hỏi giờ Midjourney đang ra sao
    • Tốc độ hàng hóa hóa của việc tạo ảnh quá nhanh
      Cứ mỗi 3~4 tháng SOTA lại thay đổi, và đột phá của quý trước trở thành sản phẩm API
      Giờ nút thắt không còn là mô hình mà là người xử lý prompt
      Mẫu hình tương tự cũng xuất hiện trong tạo mã
  • Nội dung prompt “horse riding man” thực sự rất mạnh
    Nó được cấu thành từ mô tả cực kỳ chân thực như thảo nguyên hoang vu, bụi đất, cảnh con ngựa màu nâu đè nghiến người đàn ông
    Tổng thể là một hình ảnh thể hiện sự căng thẳng nguyên sơ và sự va chạm của sức mạnh sinh học
    • Để tham khảo cho những ai còn bối rối, có một “tượng ngựa giẫm Hung Nô” từ thời Hán
      Liên kết liên quan
  • Gần đây tôi thử dùng mô hình local với LMStudio trên Linux và thấy thực sự rất đơn giản
    Nhưng nó không hỗ trợ tạo ảnh, nên tôi tò mò mọi người dùng công cụ gì để chạy mô hình diffusion như Qwen trên Linux
    • Trên thực tế, đa số người dùng dòng mô hình này đều dùng ComfyUI
      Cộng đồng lo luôn cả việc lượng tử hóa, chuyển đổi sang định dạng gguf và tối ưu tốc độ
    • Mọi thứ thay đổi quá nhanh nên tôi tự viết một máy chủ HTTP bằng Python để định tuyến các implementation khác nhau qua giao diện JSON
      Tôi chủ yếu dùng diffusers; dù chậm hơn nhưng hỗ trợ kiến trúc mới rất nhanh
    • ComfyUI là tốt nhất cho Stable Diffusion
    • Tôi rất khuyên bạn nên thử ít nhất một lần. Gần đây nó thân thiện hơn nhiều nhờ tính năng template
    • Nếu dùng nền tảng AMD thì Lemonade hỗ trợ tạo ảnh từ phiên bản 9.2
      Trang web / Ghi chú phát hành
  • Kiểu chữ dọc tiếng Trung (Vertical Typography) hơi gượng gạo
    Nên dùng dấu câu dành cho viết dọc, ví dụ như ︒, thì sẽ tự nhiên hơn
  • Tôi tạo infographic bằng AI tạo sinh mỗi ngày, nhưng thành thật mà nói 99% đều rất tệ
    LinkedIn đang ngập tràn những hình ảnh kiểu đó
    • Dù sao thì LinkedIn vốn đã tệ sẵn rồi, nên cũng không hẳn là tệ hơn
    • Infographic và thuyết trình vẫn là tính năng chỉ dành cho NanoBananaPro
    • Chất lượng infographic rốt cuộc phụ thuộc vào năng lực của người tạo
      Gần như không có ai thật sự biết cách làm hoặc mô tả một infographic tốt
    • Giống như những sơ đồ ASCII vô dụng trên GitHub, các kiểu trực quan hóa này chỉ là nhiễu nhận thức
      Xem ví dụ khác trong chuỗi Gas Town
  • Đáng tiếc là lần này có vẻ không có công bố open-weight
    • Dù vậy, chỉ khoảng một tháng trước họ cũng đã phát hành một mô hình ảnh open-weight, nên lần này vẫn có khả năng
      Lần công bố gần nhất là vào khoảng tháng 12 năm 2025
  • Tôi thích ví dụ panel truyện tranh của họ nên đã tự thử trên Qwen Chat
    Nếu dùng đúng prompt giống blog thì hoạt động tốt, nhưng chỉ cần thay đổi đầu vào một chút là số lượng panel bị lệch hoặc lời thoại tiếng Anh lại chuyển thành tiếng Trung
    Nói cách khác, đây vẫn là một tính năng thiếu nhất quán
  • “Ảnh ứng dụng cưỡi ngựa” khá thú vị
    • Nhưng việc dùng “cảnh ngựa đè lên người” làm demo thì hơi bất ngờ
      Dù sao thì cũng là lựa chọn của họ