Tóm tắt phân tích so sánh hiệu năng các mô hình chỉnh sửa ảnh dựa trên văn bản
- Điểm chính:
- Đánh giá khả năng thực hiện 12 tác vụ chỉnh sửa của 7 mô hình chỉnh sửa ảnh dựa trên văn bản mới nhất.
- Seedream 4 cho hiệu năng cao nhất với 9 lần thành công trên 12 bài, theo sau là Gemini 2.5 Flash với 7 lần thành công.
- Việc đánh giá được tiến hành theo các quy tắc nghiêm ngặt gồm cách làm một lần nhắc duy nhất (One-shot) và chỉnh sửa không dùng mặt nạ thủ công (Non-masked).
- Các mô hình cho tỷ lệ thành công thấp với những chỉ thị phức tạp như hoán đổi vị trí trong không gian và xóa chọn lọc một thành phần cụ thể.
Ⅰ. Giới thiệu
- Mục tiêu đánh giá: So sánh, phân tích hiệu năng của nhiều mô hình chỉnh sửa ảnh hiện đại (SOTA), tập trung vào việc sửa ảnh theo lệnh văn bản (Text-instructed).
- Các mô hình được đánh giá (7 loại): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (1 mô hình bổ sung đã bị loại khỏi danh sách).
- Bài đánh giá: Đưa ra tổng cộng 12 prompt chỉnh sửa và thử thách với nhiều mức độ khó và loại hình khác nhau().
- Luật thi:
- Nguyên tắc một lần thử (Single-attempt): Không cho phép chỉnh sửa lặp đi lặp lại trên cùng một ảnh bằng các prompt hiệu chỉnh liên tiếp; phải đạt mục tiêu chỉ trong một lần thử.
- Chỉnh sửa thuần theo chỉ thị văn bản (Purely text-based): Việc chỉnh sửa ảnh chỉ được thực hiện bằng chỉ thị văn bản, nên không cho phép các tính năng như img2img hoặc tô mặt nạ thủ công (Manual Masking) cho inpainting.
Ⅱ. Nội dung chính: Phân tích hiệu năng theo từng mô hình và từng bài toán
1. So sánh tỷ lệ thành công tổng thể giữa các mô hình
- Hiệu năng tốt nhất: Seedream 4 thể hiện nổi bật nhất với 9 lần thành công trên 12 bài.
- Hiệu năng xếp sau: Gemini 2.5 Flash đứng tiếp theo với 7 lần thành công.
- Nhóm trung bình: Qwen-Image-Edit đạt 6 bài, FLUX.1 Kontext [dev] đạt 5 bài thành công.
- Nhóm cuối: OpenAI gpt-image-1 chỉ đạt 4 bài, còn OmniGen2 chỉ thành công 1 bài.
2. Phân tích hiệu năng theo từng loại chỉnh sửa cụ thể
2.1. Bài toán nhận thức không gian và điều chỉnh vị trí: tỷ lệ thành công thấp
- 'SHRDLU' (hoán đổi vị trí khối): Cả 6 mô hình đều thất bại (0/6). Phần lớn mô hình chỉ hoán đổi màu của các khối thay vì vị trí; Gemini 2.5 Flash và Seedream 4 cũng chỉ đổi màu.
- 'Dựng thẳng Tháp nghiêng Pisa': 2 trên 6 mô hình thành công (2/6). Bài này đòi hỏi nhận thức không gian cơ bản, và các mô hình gặp khó trong việc chỉ chỉnh thẳng một đối tượng cụ thể trong khi vẫn giữ nguyên phần còn lại của bối cảnh.
2.2. Bài toán thay đổi và bảo toàn chi tiết thành phần: kết quả trái chiều
- 'Đổi Jaws thành Paws và các chỉnh sửa đa bước khác': 5 trên 6 mô hình thành công (5/6). Tác vụ yêu cầu thực hiện đồng thời nhiều thay đổi; OmniGen2 chỉnh sửa thành công nhưng không giữ được phong cách thẩm mỹ của ảnh gốc.
- 'Thêm tóc cho người đàn ông có râu': 4 trên 6 mô hình thành công (4/6). Kết quả của Gemini 2.5 Flash khá ổn nhưng tóc trông quá sắc nhọn, còn OpenAI gpt-image-1 lại làm biến đổi toàn bộ ảnh.
- 'Thay đổi lá bài Hanafuda': 3 trên 6 mô hình thành công (3/6). Trong bài kiểm tra khả năng chỉnh sửa chọn lọc chỉ thay lá cụ thể (King of Spades) và giữ nguyên lá khác (Ace of Spades), Qwen-Image-Edit lại sửa cả Ace of Spades ngoài ý muốn.
2.3. Bài toán bảo toàn chi tiết và thao tác đối tượng phức tạp: trở ngại lớn nhất
- 'Rút ngắn cổ hươu cao cổ': 1 trên 6 mô hình thành công (1/6). Phần lớn mô hình không thể rút ngắn cổ hươu cao cổ, còn Qwen-Image-Edit thì diễn giải prompt bất thường đến mức xóa hẳn toàn bộ chiếc cổ.
- 'Loại bỏ viên kẹo M&M màu nâu': 1 trên 6 mô hình thành công (1/6). Các mô hình gặp khó trong việc chỉ loại bỏ có chọn lọc (hoặc đổi màu) viên kẹo có màu cụ thể; Gemini 2.5 Flash thậm chí tạo ra một bố cục kẹo mới.
- 'Thay con kangaroo trên biển báo cũ bằng bóng dáng sâu cát': 1 trên 6 mô hình thành công (1/6). Các mô hình thiếu khả năng cấy một thành phần mới trong khi vẫn giữ nguyên kết cấu cũ kỹ như vết xước và rỉ sét trên biển báo hiện có.
Ⅲ. Kết luận
- Đặc điểm của các mô hình tốt nhất: Seedream 4 và Gemini 2.5 Flash nhìn chung cho hiệu năng vượt trội, nhưng vẫn còn giới hạn trong việc hiểu và phản ánh hoàn hảo các chỉ thị văn bản phức tạp, tinh vi.
- Các kiểu thất bại chính: Các mô hình liên tục cho tỷ lệ thành công thấp ở những bài toán đòi hỏi hiểu chính xác quan hệ không gian và chỉnh sửa, bảo toàn có chọn lọc các chi tiết nhỏ cụ thể trong ảnh.
- Hướng phát triển tương lai:
- GPT-image-1 thường có xu hướng thay đổi ngoài ý muốn toàn bộ ảnh, nên cần cải thiện độ chính xác trong việc khoanh vùng khu vực chỉnh sửa.
- Với một số mô hình như 'FLUX.1 Kontext [dev]' và 'Kontext Max', đã xuất hiện kết quả bất thường khi mô hình lớn hơn lại kém hơn mô hình bản dev nhỏ hơn, cho thấy cần phân tích ảnh hưởng của loại dữ liệu huấn luyện (ảnh chụp so với minh họa) lên hiệu năng.
- Với những bài toán khó xử lý chỉ bằng một prompt (ví dụ: thay đổi thiết kế lá bài), cần phát triển cách thử nghiệm theo hướng nhận nhiều ảnh đầu vào để tham chiếu.
Chưa có bình luận nào.