Qwen-Image-Edit - Ra mắt mô hình chuyên dụng cho chỉnh sửa hình ảnh

(huggingface.co)

18 điểm bởi GN⁺ 2025-08-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Qwen-Image-Edit là mô hình mở rộng chuyên dụng cho chỉnh sửa hình ảnh, được xây dựng trên mô hình Qwen-Image
Cấu trúc hỗ trợ cả chỉnh sửa ngữ nghĩa lẫn ngoại quan bằng cách đồng thời truyền ảnh đầu vào tới Qwen2.5-VL và VAE Encoder
Tính năng chỉnh sửa văn bản rất mạnh, cho phép chỉnh sửa trực tiếp bằng tiếng Trung và tiếng Anh trong khi vẫn giữ nguyên phông chữ, kích thước và kiểu dáng
Đã đạt hiệu năng SOTA trên nhiều benchmark khác nhau, qua đó trở thành một mô hình nền tảng mạnh mẽ cho chỉnh sửa hình ảnh
Được phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép nhà phát triển và nhà nghiên cứu tự do sử dụng

Giới thiệu

Qwen-Image-Edit là mô hình hỗ trợ chỉnh sửa hình ảnh bằng cách mở rộng khả năng render văn bản của Qwen-Image
Có kiến trúc đồng thời truyền đầu vào hình ảnh tới điều khiển ngữ nghĩa (Qwen2.5-VL) và điều khiển ngoại quan (VAE Encoder)
Đặc trưng là hỗ trợ cả chỉnh sửa văn bản chính xác lẫn chỉnh sửa ngữ nghĩa và ngoại quan

Chỉnh sửa ngữ nghĩa & ngoại quan: hỗ trợ các thay đổi ngữ nghĩa như thêm, xóa, xoay đối tượng, chuyển đổi phong cách, cùng với chỉnh sửa ngoại quan chỉ trên một vùng cụ thể
Chỉnh sửa văn bản chính xác: có thể chỉnh sửa trực tiếp tiếng Anh và tiếng Trung, đồng thời bảo toàn phông chữ và phong cách gốc
Ưu thế hiệu năng: đạt hiệu năng tiên tiến nhất trên nhiều benchmark công khai

Chỉnh sửa ngữ nghĩa: có thể tạo character IP, xoay đối tượng (90 độ, 180 độ), chuyển đổi phong cách (ví dụ: phong cách Ghibli)
Chỉnh sửa ngoại quan: thực hiện chính xác việc thêm biển hiệu, xóa tóc, đổi màu một đoạn văn bản cụ thể, thay nền, đổi trang phục, v.v.
Chỉnh sửa văn bản: có thể chỉnh sửa chính xác cả chữ lớn lẫn chữ nhỏ trên poster tiếng Anh và tiếng Trung
Chuỗi chỉnh sửa liên tiếp: trình diễn trường hợp sửa từng bước lỗi chữ trong một tác phẩm thư pháp để cuối cùng tạo ra phiên bản hoàn chỉnh

Mở rộng IP thương hiệu: giới thiệu ví dụ tạo bộ emoticon MBTI dựa trên nhân vật Capybara
Nghệ thuật và sáng tạo: mở ra khả năng tạo avatar ảo thông qua nhiều kiểu chuyển đổi phong cách cho ảnh chân dung
Ứng dụng công nghiệp: hỗ trợ chỉnh sửa tinh vi như chèn biển báo và tạo cả hiệu ứng phản chiếu một cách tự nhiên

Được phát hành theo giấy phép Apache 2.0, cho phép tự do sử dụng, chỉnh sửa và phân phối