- Qwen-Image là mô hình nền tạo ảnh MMDiT 20B tham số có thế mạnh về kết xuất văn bản bản địa và chỉnh sửa hình ảnh chính xác
- Đạt độ chính xác cao và khả năng hoàn thiện trực quan trong việc biểu diễn ký tự phức tạp của nhiều ngôn ngữ, bao gồm chữ Latinh và chữ Hán
- Đạt SOTA trong cùng nhóm trên nhiều benchmark công khai (GenEval, DPG, OneIG-Bench, v.v.) và có năng lực tạo văn bản nổi bật
- Trong bản demo thực tế, triển khai chính xác các bố cục phức tạp và nhiều phong cách khác nhau như đa ngôn ngữ, poster, PPT, minh họa
- Hỗ trợ các tính năng như chuyển phong cách, thêm/xóa đối tượng, mô tả chi tiết, thay đổi tư thế, đồng thời hướng tới mở rộng hệ sinh thái mã nguồn mở
Giới thiệu và điểm nổi bật
- Qwen-Image là mô hình nền tạo ảnh MMDiT 20B tham số chuyên sâu cho kết xuất văn bản phức tạp và chỉnh sửa hình ảnh chính xác
- Có thể trải nghiệm mô hình mới nhất trên Qwen Chat
Tính năng chính
- Kết xuất văn bản xuất sắc: Hỗ trợ bố cục đa dòng, hiểu ngữ nghĩa cấp đoạn văn và thể hiện chi tiết
- Hỗ trợ chất lượng cao cho cả chữ cái La-tinh và hệ chữ tượng hình
- Chỉnh sửa hình ảnh nhất quán: Tối ưu thông qua huấn luyện đa nhiệm, giữ được cả độ chính xác ngữ nghĩa và tính chân thực trực quan
- Hiệu năng benchmark mạnh mẽ: Đạt kết quả dẫn đầu trong cùng hạng cho cả nhiệm vụ tạo ảnh và chỉnh sửa trên nhiều benchmark công khai
- Đạt điểm cao trong các benchmark về tạo/chỉnh sửa văn bản như LongText-Bench, ChineseWord, TextCraft
- Hữu ích rộng rãi cho các mục đích sáng tạo như tạo nội dung, thiết kế, kể chuyện
Hiệu năng và benchmark
- Qwen-Image đạt SOTA mới nhất trên các benchmark GenEval, DPG, OneIG-Bench (tạo ảnh chung), GEdit, ImgEdit, GSO (chỉnh sửa) và nhiều benchmark khác
- Đặc biệt, vượt trội đáng kể so với các mô hình hàng đầu trước đó ở việc tạo văn bản tiếng Trung
- Kết hợp khả năng tạo ảnh tổng quát rộng rãi với kết xuất văn bản chính xác, Qwen-Image định vị mình là mô hình dẫn đầu cho việc tạo hình ảnh chất lượng cao
Ví dụ demo
Biểu diễn văn bản tiếng Trung
- Dựa trên prompt mẫu, mô hình vừa tái hiện được phong cách hoạt hình Miyazaki vừa thể hiện chính xác các cụm tiếng Trung như "云存储", "云计算", "云模型" và chữ Hán đặc biệt ("千问")
- Tư thế, biểu cảm nhân vật, cũng như cảm giác chiều sâu trong cảnh cũng được thể hiện tự nhiên
Biểu diễn song song ký tự Hán phức tạp
- Diễn đạt tỉ mỉ các chi tiết tinh tế của câu đối trang trọng, chữ viết thư pháp và các họa tiết khác
- Kiểu chữ, bố cục và cả hình ảnh minh họa (ví dụ: 岳阳楼) đều được tạo gần như hoàn toàn chân thực
Văn bản tiếng Anh & nhiều dòng
- Phản ánh chi tiết văn bản ở nhiều vị trí như kệ sách, bảng chỉ dẫn, poster
- Từ cụm “New Arrivals This Week” đến các câu ngắn trên bìa sách đều hiện thực hóa đúng kiểu chữ và bố cục
Infographic tiếng Anh phức tạp
- Tách riêng và sắp xếp chính xác icon + tiêu đề + đoạn mô tả cho từng phân module
- Tạo hoàn chỉnh infographic phức tạp xoay quanh chủ đề "Habits for Emotional Wellbeing" với nghệ thuật trực quan tự nhiên và bố cục cân đối
Văn bản nhỏ/dài
- Triển khai chi tiết văn bản chữ viết tay dài trong các vùng rất nhỏ, chỉ dưới 1/10 diện tích ảnh
- Nhiều câu văn cũng được tái tạo chính xác về chữ viết tay, bố cục và xuống dòng
Kết hợp đa ngôn ngữ
- Thực hiện đồng thời chữ viết tay tiếng Anh và tiếng Trung trong cùng một hình ảnh
- Tạo văn bản mượt mà khi chuyển đổi ngôn ngữ trong prompt
Tạo poster
- Kết hợp linh hoạt các yếu tố văn bản/hình ảnh riêng lẻ như poster phim, slogan phụ, dàn diễn viên, đạo diễn, thông tin ra mắt theo nhiều phong cách như Sci-Fi và thiết kế đồ họa
Ví dụ PPT tiếng Hàn
- Tạo đồng nhất cả kiểu logo Alibaba, tiêu đề lớn, phụ đề, bố cục ảnh tác phẩm nghệ thuật, phông chữ thư pháp và phần mô tả chi tiết theo phong cách PPT AI/Doanh nghiệp hiện đại
Tạo ảnh và chỉnh sửa chung
- Hỗ trợ nhiều phong cách nghệ thuật như ảnh chân thực, ấn tượng, hoạt hình, tối giản, mang lại tính ứng dụng sáng tạo phong phú
- Hỗ trợ nhiều lệnh chỉnh sửa thực tiễn như chuyển phong cách, thêm/xóa đối tượng, tăng cường chi tiết, chỉnh sửa văn bản, và điều chỉnh tư thế cơ thể
Kết luận
- Qwen-Image nhằm mở rộng biên giới tạo ảnh, hạ thấp rào cản kỹ thuật trong sản xuất nội dung hình ảnh và thúc đẩy các ứng dụng sáng tạo
- Tập trung vào hợp tác cộng đồng, tính mở, và xây dựng hệ sinh thái AI generative bền vững
- Dựa trên việc triển khai thực tế của người dùng và phản hồi, kế hoạch nâng cấp tính năng và mở rộng hệ sinh thái mở đang được thực hiện
1 bình luận
Ý kiến trên Hacker News