Cuộc đối đầu chỉnh sửa hình ảnh bằng AI tạo sinh

(genai-showdown.specr.net)

1 điểm bởi GN⁺ 2025-10-30 | 1 bình luận | Chia sẻ qua WhatsApp

Nội dung có dạng so sánh kết quả của nhiều công cụ chỉnh sửa hình ảnh bằng AI tạo sinh
Cấu trúc hiển thị so sánh trực quan các kết quả chỉnh sửa mà từng công cụ tạo ra với cùng một đầu vào
Trên trang có dòng “Loading editing comparisons...”, cho thấy đang tải phần so sánh chỉnh sửa
Ngoài tiêu đề ra, không có thông tin cụ thể về tên công cụ, tiêu chí so sánh hay mô tả kết quả
Nhìn chung đây có vẻ là giao diện để so sánh hiệu năng chỉnh sửa hình ảnh bằng AI, nhưng nguyên văn không có chi tiết cụ thể

Tổng quan trang

Tiêu đề là “Generative AI Image Editing Showdown”, hàm ý việc so sánh nhiều mô hình chỉnh sửa hình ảnh bằng AI
Phần nội dung chỉ có dòng “Loading editing comparisons...”, không bao gồm kết quả so sánh hay phần giải thích
Nguyên văn không có thêm văn bản, dữ liệu, hình ảnh, danh sách công cụ hay tiêu chí đánh giá

Giới hạn của thông tin được cung cấp

Nguyên văn không có mô tả cụ thể về kết quả chỉnh sửa hay nội dung so sánh
Vì vậy mục đích so sánh, các mô hình AI được dùng và phương thức đánh giá đều không được nêu rõ
Tổng thể, nội dung đang ở trạng thái tải, nên chưa cung cấp thông tin thực chất

1 bình luận

GN⁺ 2025-10-30

Ý kiến trên Hacker News

Mọi người đang đánh giá thấp Gemini 2.5 Flash Image / Nano Banana
Nó mạnh hơn hẳn các model khác trong khi giá mỗi ảnh vẫn như nhau, và nhờ bộ mã hóa văn bản nên có thể xử lý các prompt phức tạp và tinh tế tốt hơn nhiều
Tôi đã đăng ví dụ bằng gói Python gemimg do mình তৈরি, và cũng đang chuẩn bị một bài blog với nhiều trường hợp đa dạng hơn
Trong AI Studio của Google còn hỗ trợ tạo ảnh miễn phí, thậm chí điều khiển được cả tỷ lệ khung hình
Dù vậy, việc Seedream 4.0 thắng trong bài test lần này vẫn khá bất ngờ
- Thật ra Nano Banana đã từng khá viral ngay từ lúc ra mắt
  Nếu bỏ qua tính năng tích hợp trong ChatGPT hay trào lưu phong cách Ghibli, tôi nghĩ đây là một trong những model chỉnh sửa ảnh nổi tiếng nhất
- Seedream nhỉnh hơn về độ bám sát prompt, nhưng có xu hướng tạo ra thay đổi gradient màu nhẹ
  Với nhu cầu của tôi thì không thành vấn đề lớn, nhưng với ai cần độ nhất quán màu sắc, Nano Banana có thể là lựa chọn tốt hơn
- Khi dùng Nano Banana, khoảng một nửa số lần AI Studio báo lỗi thất bại mà không rõ lý do
  Đây cũng không phải các yêu cầu nằm ở ranh giới bản quyền gì cả mà vẫn hay gặp lỗi kiểu này
  Nhưng mỗi khi chạy thành công thì kết quả rất ấn tượng
- Tôi đã dùng Nano Banana để dọn dẹp ảnh căn bếp bừa bộn của mình nhưng lần đầu thất bại hoàn toàn
  Ở lần thử thứ hai, tôi cho nó phân tích ảnh trước để rút ra danh sách đồ đạc lộn xộn, rồi mới đưa prompt xóa chúng đi, và kết quả tốt hơn hẳn
  Cuối cùng lại càng thấy rõ tầm quan trọng của prompt engineering
- Gemini khi hoạt động tốt thì rất xuất sắc, nhưng đôi lúc lại cho ra kết quả hoàn toàn lạc quẻ và dùng prompt nào cũng không khớp
  Flux thì tốt đến mức đáng ngạc nhiên, nhưng đa số mọi người, kể cả tôi, cuối cùng vẫn dùng các model quen tay như ChatGPT hay Gemini làm mặc định
Kiểu so sánh này thực tế hơn nhiều so với các biểu đồ benchmark
Tôi dùng Nano Banana khá thường xuyên, nhưng nó yếu trong việc chỉnh sửa kiến trúc ngoại thất hay cảnh quan
Những thứ như vỉa hè, rãnh thoát nước hay khớp màu gần như bất khả thi
- Tôi đang thử dùng Qwen Image Edit để biến ảnh ban ngày thành ban đêm, nhưng hầu hết các model đều trượt ở phần căn chỉnh cạnh
  Nano Banana cũng xử lý biên không chính xác nên ảnh bị lệch
Nếu nhìn từ góc độ người đã thấy cột mốc của năm 2022, thì các bản demo hiện tại thật sự đáng kinh ngạc đến mức không thể so với thời SD1·2·3
Có vẻ chúng ta đã bước vào thời kỳ mà các model thực sự hiểu prompt và hình ảnh
Đây là giai đoạn mà kỹ thuật tiếp tục tiến bộ và sức sáng tạo được mở rộng bùng nổ
Việc thay đổi prompt hay số lần thử rồi chỉ đưa ra kết quả mình ưng ý nhất làm loãng tính khách quan của bài test
Cần có điều kiện thống nhất như cùng một prompt và cùng một seed cho mọi model, mỗi model tạo 5 lần
Ví dụ, Gemini 2.5 Flash đã được cho quá nhiều tự do trong bài test “Girl with Pearl Earring”,
trong khi OpenAI gpt-image-1 lại bị tính là thất bại dù cho ra kết quả tốt hơn nhiều với ít lần thử hơn
- Nhân tiện, ví dụ gpt-image-1 đó là cho bài test “You Only Move Twice”
- Thà tổ chức hẳn một cuộc thi “ảnh tệ nhất” thì có lẽ sẽ cho thấy rõ hơn model nào đỡ gây ức chế hơn
Trong bài tôi đăng trên blog Replicate, tôi đã tự so sánh trực tiếp nhiều model
Trong số đó, Qwen Image Edit là model rẻ nhất và nhanh nhất, đồng thời xử lý tốt phần lớn tác vụ chỉnh sửa
Nếu làm một app chỉnh sửa ảnh, có lẽ tôi sẽ chọn model này
Bản so sánh nói chung khá thú vị, nhưng ảnh hươu cao cổ ở cuối thực ra chỉ bị gập người chứ không hề ngắn lại
Dù vậy tôi vẫn thường chọn kết quả của Gemini, và giá mà có thang điểm 10 điểm thay vì kiểu pass/fail thì hay hơn
- Cụm “hươu cao cổ cong queo một cách kỳ quặc” buồn cười quá
  Nếu ngoài đời có một triển lãm như thế thì tôi rất muốn đi xem
Gần đây tôi hầu như không còn tạo ảnh AI nữa
Khoảng một năm rưỡi trước thì chuyện tự chạy model ở máy local còn là xu hướng, nhưng giờ đa số đã chuyển sang cloud-based
Dù vậy, trong chỉnh sửa ảnh đời thực vẫn còn cảm giác kết cấu không tự nhiên ở đâu đó
Ví dụ tóc người quá bóng, hoặc cây cối trông như bằng nhựa
- Kích thước model và nhu cầu tính toán của các model ảnh đã quá lớn nên cá nhân rất khó self-hosting
  Có thể chạy Flux Kontext ở local, nhưng phải dùng model đã quantize và tạo rất chậm nên không hiệu quả
  Hơn nữa, đã có thể tạo ảnh miễn phí trong ChatGPT nên càng ít lý do để cố chấp bám local
  Trong bài test về tóc, chỉ có Gemini 2.5 Flash là khớp đúng màu và chất liệu,
  còn Seedream 4 thì có vấn đề là toàn bộ cân màu bị thay đổi nên tôi không thích
Tôi nghĩ Reve cũng nên được đưa vào bài test
- Với Nano Banana thì tôi không đổi hướng nhìn của nhân vật được, nhưng Reve cho ra kết quả hoàn hảo ngay lần đầu
  Nó xóa vật thể nhân vật đang cầm, xoay ánh nhìn về phía camera, rồi còn chỉnh cả tư thế một cách tự nhiên
  Hơn nữa, cả 4 kết quả đều có chất lượng đủ tốt để dùng được
  Sau đó tôi đọc bài giới thiệu model của Reve và quyết định đăng ký ngay
- Cảm ơn vì gợi ý, sau này tôi sẽ thử thêm nó vào danh sách test
- Cảm ơn vì mẹo hay
Nỗ lực thì tốt đấy, nhưng các prompt sai kiểu như “cái tháp trong tranh đang nghiêng sang phải” lại chỉ khiến model làm nó nghiêng hơn
- Câu đó không phải prompt đầu vào thực tế mà chỉ là câu mở đầu
  Số lần thử khác nhau là vì prompt được điều chỉnh theo từng model
Nhìn chung đây là một bài test thú vị
Có người chỉ ra rằng prompt không hoàn hảo, nhưng chính vì vậy lại thực tế như cách người dùng phổ thông sẽ nhập
- Tôi đã làm việc với prompt từ thời SD 1.5 nên hiểu khá rõ các biến thể prompt cần thiết cho từng model
  Như đã giải thích trong FAQ, tôi thử nhiều phiên bản prompt để model không bị mắc kẹt vào một từ cụ thể
  Ví dụ những câu mệnh lệnh như “Turn on the lights” không chỉ là chỉ thị đơn thuần,
  mà là prompt để kiểm tra năng lực hiểu của multimodal LLM
  Những câu như vậy sẽ tuyệt đối không hiệu quả với các model truyền thống như SDXL

Cuộc đối đầu chỉnh sửa hình ảnh bằng AI tạo sinh

Tổng quan trang

Giới hạn của thông tin được cung cấp

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News