18 điểm bởi GN⁺ 2025-08-21 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • Qwen-Image-Edit là mô hình mở rộng chuyên dụng cho chỉnh sửa hình ảnh, được xây dựng trên mô hình Qwen-Image
  • Cấu trúc hỗ trợ cả chỉnh sửa ngữ nghĩa lẫn ngoại quan bằng cách đồng thời truyền ảnh đầu vào tới Qwen2.5-VLVAE Encoder
  • Tính năng chỉnh sửa văn bản rất mạnh, cho phép chỉnh sửa trực tiếp bằng tiếng Trung và tiếng Anh trong khi vẫn giữ nguyên phông chữ, kích thước và kiểu dáng
  • Đã đạt hiệu năng SOTA trên nhiều benchmark khác nhau, qua đó trở thành một mô hình nền tảng mạnh mẽ cho chỉnh sửa hình ảnh
  • Được phát hành theo giấy phép mã nguồn mở Apache 2.0, cho phép nhà phát triển và nhà nghiên cứu tự do sử dụng

Giới thiệu

  • Qwen-Image-Edit là mô hình hỗ trợ chỉnh sửa hình ảnh bằng cách mở rộng khả năng render văn bản của Qwen-Image
  • Có kiến trúc đồng thời truyền đầu vào hình ảnh tới điều khiển ngữ nghĩa (Qwen2.5-VL) và điều khiển ngoại quan (VAE Encoder)
  • Đặc trưng là hỗ trợ cả chỉnh sửa văn bản chính xác lẫn chỉnh sửa ngữ nghĩa và ngoại quan

Tính năng chính

  • Chỉnh sửa ngữ nghĩa & ngoại quan: hỗ trợ các thay đổi ngữ nghĩa như thêm, xóa, xoay đối tượng, chuyển đổi phong cách, cùng với chỉnh sửa ngoại quan chỉ trên một vùng cụ thể
  • Chỉnh sửa văn bản chính xác: có thể chỉnh sửa trực tiếp tiếng Anh và tiếng Trung, đồng thời bảo toàn phông chữ và phong cách gốc
  • Ưu thế hiệu năng: đạt hiệu năng tiên tiến nhất trên nhiều benchmark công khai

Bắt đầu nhanh

  • Có thể sử dụng thông qua thư viện Hugging Face diffusers
  • Mã ví dụ thực hiện việc đổi màu con thỏ sang tím và thay nền thành đèn flash
  • Có thể chạy hiệu quả nhờ tăng tốc CUDA và hỗ trợ torch.bfloat16

Các ví dụ demo (Showcase)

  • Chỉnh sửa ngữ nghĩa: có thể tạo character IP, xoay đối tượng (90 độ, 180 độ), chuyển đổi phong cách (ví dụ: phong cách Ghibli)
  • Chỉnh sửa ngoại quan: thực hiện chính xác việc thêm biển hiệu, xóa tóc, đổi màu một đoạn văn bản cụ thể, thay nền, đổi trang phục, v.v.
  • Chỉnh sửa văn bản: có thể chỉnh sửa chính xác cả chữ lớn lẫn chữ nhỏ trên poster tiếng Anh và tiếng Trung
  • Chuỗi chỉnh sửa liên tiếp: trình diễn trường hợp sửa từng bước lỗi chữ trong một tác phẩm thư pháp để cuối cùng tạo ra phiên bản hoàn chỉnh

Kịch bản ứng dụng

  • Mở rộng IP thương hiệu: giới thiệu ví dụ tạo bộ emoticon MBTI dựa trên nhân vật Capybara
  • Nghệ thuật và sáng tạo: mở ra khả năng tạo avatar ảo thông qua nhiều kiểu chuyển đổi phong cách cho ảnh chân dung
  • Ứng dụng công nghiệp: hỗ trợ chỉnh sửa tinh vi như chèn biển báo và tạo cả hiệu ứng phản chiếu một cách tự nhiên

Giấy phép

  • Được phát hành theo giấy phép Apache 2.0, cho phép tự do sử dụng, chỉnh sửa và phân phối

Chưa có bình luận nào.

Chưa có bình luận nào.