Qwen-Image: Mô hình tạo ảnh có khả năng kết xuất văn bản bản địa

(qwenlm.github.io)

1 điểm bởi GN⁺ 2025-08-05 | 1 bình luận | Chia sẻ qua WhatsApp

Qwen-Image là mô hình nền tạo ảnh MMDiT 20B tham số có thế mạnh về kết xuất văn bản bản địa và chỉnh sửa hình ảnh chính xác
Đạt độ chính xác cao và khả năng hoàn thiện trực quan trong việc biểu diễn ký tự phức tạp của nhiều ngôn ngữ, bao gồm chữ Latinh và chữ Hán
Đạt SOTA trong cùng nhóm trên nhiều benchmark công khai (GenEval, DPG, OneIG-Bench, v.v.) và có năng lực tạo văn bản nổi bật
Trong bản demo thực tế, triển khai chính xác các bố cục phức tạp và nhiều phong cách khác nhau như đa ngôn ngữ, poster, PPT, minh họa
Hỗ trợ các tính năng như chuyển phong cách, thêm/xóa đối tượng, mô tả chi tiết, thay đổi tư thế, đồng thời hướng tới mở rộng hệ sinh thái mã nguồn mở

Giới thiệu và điểm nổi bật

Qwen-Image là mô hình nền tạo ảnh MMDiT 20B tham số chuyên sâu cho kết xuất văn bản phức tạp và chỉnh sửa hình ảnh chính xác
Có thể trải nghiệm mô hình mới nhất trên Qwen Chat

Tính năng chính

Kết xuất văn bản xuất sắc: Hỗ trợ bố cục đa dòng, hiểu ngữ nghĩa cấp đoạn văn và thể hiện chi tiết
- Hỗ trợ chất lượng cao cho cả chữ cái La-tinh và hệ chữ tượng hình
Chỉnh sửa hình ảnh nhất quán: Tối ưu thông qua huấn luyện đa nhiệm, giữ được cả độ chính xác ngữ nghĩa và tính chân thực trực quan
Hiệu năng benchmark mạnh mẽ: Đạt kết quả dẫn đầu trong cùng hạng cho cả nhiệm vụ tạo ảnh và chỉnh sửa trên nhiều benchmark công khai
Đạt điểm cao trong các benchmark về tạo/chỉnh sửa văn bản như LongText-Bench, ChineseWord, TextCraft
Hữu ích rộng rãi cho các mục đích sáng tạo như tạo nội dung, thiết kế, kể chuyện

Hiệu năng và benchmark

Qwen-Image đạt SOTA mới nhất trên các benchmark GenEval, DPG, OneIG-Bench (tạo ảnh chung), GEdit, ImgEdit, GSO (chỉnh sửa) và nhiều benchmark khác
Đặc biệt, vượt trội đáng kể so với các mô hình hàng đầu trước đó ở việc tạo văn bản tiếng Trung
Kết hợp khả năng tạo ảnh tổng quát rộng rãi với kết xuất văn bản chính xác, Qwen-Image định vị mình là mô hình dẫn đầu cho việc tạo hình ảnh chất lượng cao

Ví dụ demo

Biểu diễn văn bản tiếng Trung

Dựa trên prompt mẫu, mô hình vừa tái hiện được phong cách hoạt hình Miyazaki vừa thể hiện chính xác các cụm tiếng Trung như "云存储", "云计算", "云模型" và chữ Hán đặc biệt ("千问")
Tư thế, biểu cảm nhân vật, cũng như cảm giác chiều sâu trong cảnh cũng được thể hiện tự nhiên

Biểu diễn song song ký tự Hán phức tạp

Diễn đạt tỉ mỉ các chi tiết tinh tế của câu đối trang trọng, chữ viết thư pháp và các họa tiết khác
Kiểu chữ, bố cục và cả hình ảnh minh họa (ví dụ: 岳阳楼) đều được tạo gần như hoàn toàn chân thực

Văn bản tiếng Anh & nhiều dòng

Phản ánh chi tiết văn bản ở nhiều vị trí như kệ sách, bảng chỉ dẫn, poster
Từ cụm “New Arrivals This Week” đến các câu ngắn trên bìa sách đều hiện thực hóa đúng kiểu chữ và bố cục

Infographic tiếng Anh phức tạp

Tách riêng và sắp xếp chính xác icon + tiêu đề + đoạn mô tả cho từng phân module
Tạo hoàn chỉnh infographic phức tạp xoay quanh chủ đề "Habits for Emotional Wellbeing" với nghệ thuật trực quan tự nhiên và bố cục cân đối

Văn bản nhỏ/dài

Triển khai chi tiết văn bản chữ viết tay dài trong các vùng rất nhỏ, chỉ dưới 1/10 diện tích ảnh
Nhiều câu văn cũng được tái tạo chính xác về chữ viết tay, bố cục và xuống dòng

Kết hợp đa ngôn ngữ

Thực hiện đồng thời chữ viết tay tiếng Anh và tiếng Trung trong cùng một hình ảnh
Tạo văn bản mượt mà khi chuyển đổi ngôn ngữ trong prompt

Tạo poster

Kết hợp linh hoạt các yếu tố văn bản/hình ảnh riêng lẻ như poster phim, slogan phụ, dàn diễn viên, đạo diễn, thông tin ra mắt theo nhiều phong cách như Sci-Fi và thiết kế đồ họa

Ví dụ PPT tiếng Hàn

Tạo đồng nhất cả kiểu logo Alibaba, tiêu đề lớn, phụ đề, bố cục ảnh tác phẩm nghệ thuật, phông chữ thư pháp và phần mô tả chi tiết theo phong cách PPT AI/Doanh nghiệp hiện đại

Tạo ảnh và chỉnh sửa chung

Hỗ trợ nhiều phong cách nghệ thuật như ảnh chân thực, ấn tượng, hoạt hình, tối giản, mang lại tính ứng dụng sáng tạo phong phú
Hỗ trợ nhiều lệnh chỉnh sửa thực tiễn như chuyển phong cách, thêm/xóa đối tượng, tăng cường chi tiết, chỉnh sửa văn bản, và điều chỉnh tư thế cơ thể

Kết luận

Qwen-Image nhằm mở rộng biên giới tạo ảnh, hạ thấp rào cản kỹ thuật trong sản xuất nội dung hình ảnh và thúc đẩy các ứng dụng sáng tạo
Tập trung vào hợp tác cộng đồng, tính mở, và xây dựng hệ sinh thái AI generative bền vững
Dựa trên việc triển khai thực tế của người dùng và phản hồi, kế hoạch nâng cấp tính năng và mở rộng hệ sinh thái mở đang được thực hiện

1 bình luận

GN⁺ 2025-08-05

Ý kiến trên Hacker News

Mình không hiểu tại sao điều này lại chưa trở thành một chủ đề lớn như vậy —– đây không chỉ là mô hình mã nguồn mở đầu tiên vượt qua gpt-image-1 trên mọi phương diện, mà còn hơn cả Flux Kontext về khả năng chỉnh sửa. Đây là một chuyện cực lớn.
- Mình đã thử nghịch mô hình này được khoảng một tiếng. Tổng thể rất ấn tượng, nhưng theo các bài test ban đầu của mình, trong các trường hợp tuân thủ prompt khá phức tạp thì hiệu năng vẫn kém hơn rõ rệt so với gpt-image-1 (hay Imagen 3/4). Khoảng tỉ lệ thành công là ~50%, trong khi gpt-image-1 là mức ~75%. Nó chưa xử lý được mê cung, phương trình Schrödinger... Mình đã thử trên trang GenAI Showdown.
- Chỉ nhìn vào các trang của họ thì chưa thể chắc, nhưng có vẻ mô hình chỉnh sửa vẫn chưa được công bố chính thức. Xem comment trên issue GitHub.
- Theo mình, nó chắc chắn làm được nhiều thứ hơn gpt-image-1. Ngoài chuyển style, thêm/xóa object, chỉnh sửa text, thao tác pose người, nó còn làm được object detection, semantic segmentation, depth/edge estimation, super resolution, và cả Neural View Synthesis (NVS), tức là tạo ảnh mới ở góc nhìn mới từ ảnh gốc. Thực sự là cả một dàn tính năng. Nhìn vào kết quả đầu tiên thì gpt-image-1 dường như hơi hơn một chút ở độ rõ nét và độ sắc. Thành thật mà nói, mình đoán OpenAI có thể đang áp dụng một lớp hậu xử lý kiểu unsharp mask đơn giản. Nó vẫn giữ độ nét đồng đều ở cả vùng mờ, và đôi khi còn có vẻ hơi quá đà. Dù vậy, nhìn chung mô hình này cũng xấp xỉ cùng một cấp. Mình từng nghĩ công nghệ tạo ảnh “riêng” của OpenAI sẽ vẫn giữ ưu thế năm nay, nhưng mức độ này thật bất ngờ. Nhân tiện, Flux Krea mới phát hành được 4 ngày thôi! Nếu mô hình này có chất lượng thực sự gần giống gpt-image-1 thì đúng là một cú chuyển mình đáng kể.
- Theo mình, điểm rằng cần tới 40GB VRAM có vẻ khiến bớt nóng lên một phần. Nhắc thêm, các mô hình LLM đã có công nghệ phân tán trên nhiều GPU khá trưởng thành, nhưng với mô hình ảnh thì dù dùng định dạng GGUF, mình vẫn không hiểu vì sao tiến bộ ở mảng này lại chậm. Mình nghĩ khi ảnh mô hình càng lớn thì càng phải triển khai phân tán nhiều hơn.
- Chỉ mới vài giờ sau đó, demo còn đang lỗi liên tục, nên mình nghĩ cần thêm thời gian để mọi người thử kỹ hơn. Sự xuất hiện của bản GGUF quantized và các workflow Comfy đa dạng cũng sẽ là yếu tố rất quan trọng, vì hầu hết người dùng sẽ muốn chạy local. Nhưng kích thước của nó khá lớn hơn so với nhiều model khác. Điều thú vị là đối thủ lớn nhất không phải Flux mà lại là các model của Alibaba. Ví dụ Wan 2.2 đã rất nổi tiếng cho image generation, nên điều mình thấy hứng thú là Qwen-Image có bước tiến lớn đến mức nào so với Wan 2.2. Câu điểm đánh giá thực sự của một mô hình ảnh mới thường là khoảng 1 tuần sau khi ra mắt; khi đó người dùng sẽ test nhiều và gom lại ưu/nhược điểm từ góc nhìn bên thứ ba. Mình rất kỳ vọng vào mô hình này.
Đây là bản release hay! Mình đã thêm vào GenAI Showdown. Tổng thể là một model khá tốt, điểm khoảng 40% và đặc biệt là model SOTA có thể chạy trên GPU tiêu dùng (đặc biệt hơn ở bản quantized). Tuy nhiên, theo đúng thực tế, trong việc bám sát prompt txt2img thì thua hẳn OpenAI gpt-image-1. Nhưng như đã nhắc trong thread này, điểm mạnh của model này là có thể làm nhiều việc khác nhau như chỉnh sửa. Cũng kiểm tra được ở GenAI Showdown.
- Lưu ý rằng Imagen 3 và 4 là hai model hoàn toàn khác nhau nên không nên so sánh lẫn nhau.
Dù nghe có vẻ hiển nhiên với người hay làm chuyện này thường xuyên, mình rất tò mò về cấu hình phần cứng để có thể host model này và cho ra kết quả hợp lý. Trên máy Linux có GPU 16GB và RAM 64GB, mình đã chạy thử. Trên PC này SD chạy ổn. Nhưng với Qwen-image thì chạy bằng GPU hay CPU đều báo thiếu bộ nhớ. Không rõ thiếu ở mức nào: thiếu chút ít hay cần gấp đôi, vài chục lần, hay thực sự cần phần cứng “điên cuồng”.
- Có lẽ với người hay làm việc này thì điều này có vẻ hiển nhiên, nhưng thực ra không hẳn vậy. Tính toán VRAM cho VLM/LLM là một vùng gần như “ma thuật”. Trên mạng có khoảng 10 cái máy tính online thôi, nhưng không có cái nào đúng. Quá nhiều biến số như quantization, KV caching, activation, layer... nên rất vất vả. Dù sao trong trường hợp model này, cần trên 40GB VRAM. RAM hệ thống (trừ khi là unified RAM trên Apple Silicon) sẽ thiếu. Ngay cả trên Apple Silicon, băng thông bộ nhớ thấp nên tốc độ suy luận chậm hơn rất nhiều so với GPU/TPU.
- Mình dự đoán nó gần bằng kích thước file model. Nhìn vào thư mục transformers thì có khoảng 9 file 5GB; cứ xem như cần khoảng 45GB VRAM cho GPU. Thường thì bản bản nhẹ hóa quantized (chấp nhận đánh đổi chất lượng) sẽ sớm được phát hành.
- Qwen-Image cần tối thiểu 24GB VRAM ở bản full model. Tuy nhiên bản quantized 4-bit có thể chạy được khoảng 8GB VRAM với thư viện như AutoGPTQ.
- Có vẻ phải chờ thêm vài ngày mới có bản quantized 4-bit. Số tham số là 20B.
- Trong môi trường suy luận production thì chạy rất ổn với 1xH100.
Khác với nhiều model tạo ảnh khác, điều bất ngờ là nó không làm đổi toàn bộ ảnh một cách thừa như 4o image gen. Ở 4o, chỉ muốn sửa quần áo mà đôi khi mặt cũng đổi theo, còn model này dường như chỉ chèn các dấu vết nhân tạo của AI vào phần cần sửa.
- Đó là lý do Flux Kontext từng hot đến vậy — cho sức mạnh img2img inpainting mà không cần masking thủ công thật sự là điểm đột phá. Xem blog về chỉnh sửa.
- Ở 4o, chỉ chọn vùng muốn chỉnh sửa thì vẫn có thể giữ nguyên phần còn lại.
Gần đây, các model mã nguồn mở Trung Quốc liên tục ra rất tốt. Mỗi lần đọc tin như vậy, mình lại thấy thật sự có hy vọng.
Có ai biết thực tế các model này học text rendering như thế nào không? Tất cả model mình dùng (kể cả OpenAI, Flux) đều có cùng vấn đề: text không tự nhiên và bóng/phản xạ của bề mặt trong ảnh nhìn rất gượng vì khác điều kiện ánh sáng gốc. Có vẻ họ dùng cùng một “mánh lới” gì đó.
- Bài viết kỹ thuật giải thích ở trang 14. Họ nói là tạo dữ liệu tổng hợp bằng cách chồng text lên ảnh. Có vẻ được huấn luyện theo hướng overwrite text mà không tính đến điều kiện chiếu sáng gốc. Garbage in, garbage out. Hy vọng rằng tương lai sẽ có phương pháp tổng hợp text chân thực hơn; khi đó huấn luyện sẽ tạo ra model vẽ text tự nhiên hơn.
Nên xem luôn phần Data Filtering ở mục 3.2 của paper. Xem PDF gốc.
- Điểm thú vị là không có ngôn ngữ nào khác ngoài tiếng Anh và tiếng Trung được đề cập hay có ví dụ.
Mình muốn biết cấu hình card đồ họa thấp nhất có thể host model này để cho ra kết quả hợp lý.
Kích thước canvas ngắn.
Tò mò không biết mức độ kiểm duyệt nghiêm mức nào.
- Mỗi lần có model mới ra, đây gần như điều đầu tiên cộng đồng luôn tò mò. Thực tế, không có tổ chức nào muốn đối diện với mặt thật phũ phàng của bản năng con người. Còn một điều nữa, xã hội và doanh nghiệp Mỹ dường như cũng đầy một thứ thận trọng và khắc khổ hơi kỳ lạ.

Qwen-Image: Mô hình tạo ảnh có khả năng kết xuất văn bản bản địa

Giới thiệu và điểm nổi bật

Tính năng chính

Hiệu năng và benchmark

Ví dụ demo

Biểu diễn văn bản tiếng Trung

Biểu diễn song song ký tự Hán phức tạp

Văn bản tiếng Anh & nhiều dòng

Infographic tiếng Anh phức tạp

Văn bản nhỏ/dài

Kết hợp đa ngôn ngữ

Tạo poster

Ví dụ PPT tiếng Hàn

Tạo ảnh và chỉnh sửa chung

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News