1 điểm bởi GN⁺ 2025-10-30 | 1 bình luận | Chia sẻ qua WhatsApp
  • Nội dung có dạng so sánh kết quả của nhiều công cụ chỉnh sửa hình ảnh bằng AI tạo sinh
  • Cấu trúc hiển thị so sánh trực quan các kết quả chỉnh sửa mà từng công cụ tạo ra với cùng một đầu vào
  • Trên trang có dòng “Loading editing comparisons...”, cho thấy đang tải phần so sánh chỉnh sửa
  • Ngoài tiêu đề ra, không có thông tin cụ thể về tên công cụ, tiêu chí so sánh hay mô tả kết quả
  • Nhìn chung đây có vẻ là giao diện để so sánh hiệu năng chỉnh sửa hình ảnh bằng AI, nhưng nguyên văn không có chi tiết cụ thể

Tổng quan trang

  • Tiêu đề là “Generative AI Image Editing Showdown”, hàm ý việc so sánh nhiều mô hình chỉnh sửa hình ảnh bằng AI
  • Phần nội dung chỉ có dòng “Loading editing comparisons...”, không bao gồm kết quả so sánh hay phần giải thích
  • Nguyên văn không có thêm văn bản, dữ liệu, hình ảnh, danh sách công cụ hay tiêu chí đánh giá

Giới hạn của thông tin được cung cấp

  • Nguyên văn không có mô tả cụ thể về kết quả chỉnh sửa hay nội dung so sánh
  • Vì vậy mục đích so sánh, các mô hình AI được dùng và phương thức đánh giá đều không được nêu rõ
  • Tổng thể, nội dung đang ở trạng thái tải, nên chưa cung cấp thông tin thực chất

1 bình luận

 
GN⁺ 2025-10-30
Ý kiến trên Hacker News
  • Mọi người đang đánh giá thấp Gemini 2.5 Flash Image / Nano Banana
    Nó mạnh hơn hẳn các model khác trong khi giá mỗi ảnh vẫn như nhau, và nhờ bộ mã hóa văn bản nên có thể xử lý các prompt phức tạp và tinh tế tốt hơn nhiều
    Tôi đã đăng ví dụ bằng gói Python gemimg do mình তৈরি, và cũng đang chuẩn bị một bài blog với nhiều trường hợp đa dạng hơn
    Trong AI Studio của Google còn hỗ trợ tạo ảnh miễn phí, thậm chí điều khiển được cả tỷ lệ khung hình
    Dù vậy, việc Seedream 4.0 thắng trong bài test lần này vẫn khá bất ngờ

    • Thật ra Nano Banana đã từng khá viral ngay từ lúc ra mắt
      Nếu bỏ qua tính năng tích hợp trong ChatGPT hay trào lưu phong cách Ghibli, tôi nghĩ đây là một trong những model chỉnh sửa ảnh nổi tiếng nhất
    • Seedream nhỉnh hơn về độ bám sát prompt, nhưng có xu hướng tạo ra thay đổi gradient màu nhẹ
      Với nhu cầu của tôi thì không thành vấn đề lớn, nhưng với ai cần độ nhất quán màu sắc, Nano Banana có thể là lựa chọn tốt hơn
    • Khi dùng Nano Banana, khoảng một nửa số lần AI Studio báo lỗi thất bại mà không rõ lý do
      Đây cũng không phải các yêu cầu nằm ở ranh giới bản quyền gì cả mà vẫn hay gặp lỗi kiểu này
      Nhưng mỗi khi chạy thành công thì kết quả rất ấn tượng
    • Tôi đã dùng Nano Banana để dọn dẹp ảnh căn bếp bừa bộn của mình nhưng lần đầu thất bại hoàn toàn
      Ở lần thử thứ hai, tôi cho nó phân tích ảnh trước để rút ra danh sách đồ đạc lộn xộn, rồi mới đưa prompt xóa chúng đi, và kết quả tốt hơn hẳn
      Cuối cùng lại càng thấy rõ tầm quan trọng của prompt engineering
    • Gemini khi hoạt động tốt thì rất xuất sắc, nhưng đôi lúc lại cho ra kết quả hoàn toàn lạc quẻ và dùng prompt nào cũng không khớp
      Flux thì tốt đến mức đáng ngạc nhiên, nhưng đa số mọi người, kể cả tôi, cuối cùng vẫn dùng các model quen tay như ChatGPT hay Gemini làm mặc định
  • Kiểu so sánh này thực tế hơn nhiều so với các biểu đồ benchmark
    Tôi dùng Nano Banana khá thường xuyên, nhưng nó yếu trong việc chỉnh sửa kiến trúc ngoại thất hay cảnh quan
    Những thứ như vỉa hè, rãnh thoát nước hay khớp màu gần như bất khả thi

    • Tôi đang thử dùng Qwen Image Edit để biến ảnh ban ngày thành ban đêm, nhưng hầu hết các model đều trượt ở phần căn chỉnh cạnh
      Nano Banana cũng xử lý biên không chính xác nên ảnh bị lệch
  • Nếu nhìn từ góc độ người đã thấy cột mốc của năm 2022, thì các bản demo hiện tại thật sự đáng kinh ngạc đến mức không thể so với thời SD1·2·3
    Có vẻ chúng ta đã bước vào thời kỳ mà các model thực sự hiểu prompt và hình ảnh
    Đây là giai đoạn mà kỹ thuật tiếp tục tiến bộ và sức sáng tạo được mở rộng bùng nổ

  • Việc thay đổi prompt hay số lần thử rồi chỉ đưa ra kết quả mình ưng ý nhất làm loãng tính khách quan của bài test
    Cần có điều kiện thống nhất như cùng một prompt và cùng một seed cho mọi model, mỗi model tạo 5 lần
    Ví dụ, Gemini 2.5 Flash đã được cho quá nhiều tự do trong bài test “Girl with Pearl Earring”,
    trong khi OpenAI gpt-image-1 lại bị tính là thất bại dù cho ra kết quả tốt hơn nhiều với ít lần thử hơn

    • Nhân tiện, ví dụ gpt-image-1 đó là cho bài test “You Only Move Twice”
    • Thà tổ chức hẳn một cuộc thi “ảnh tệ nhất” thì có lẽ sẽ cho thấy rõ hơn model nào đỡ gây ức chế hơn
  • Trong bài tôi đăng trên blog Replicate, tôi đã tự so sánh trực tiếp nhiều model
    Trong số đó, Qwen Image Edit là model rẻ nhất và nhanh nhất, đồng thời xử lý tốt phần lớn tác vụ chỉnh sửa
    Nếu làm một app chỉnh sửa ảnh, có lẽ tôi sẽ chọn model này

  • Bản so sánh nói chung khá thú vị, nhưng ảnh hươu cao cổ ở cuối thực ra chỉ bị gập người chứ không hề ngắn lại
    Dù vậy tôi vẫn thường chọn kết quả của Gemini, và giá mà có thang điểm 10 điểm thay vì kiểu pass/fail thì hay hơn

    • Cụm “hươu cao cổ cong queo một cách kỳ quặc” buồn cười quá
      Nếu ngoài đời có một triển lãm như thế thì tôi rất muốn đi xem
  • Gần đây tôi hầu như không còn tạo ảnh AI nữa
    Khoảng một năm rưỡi trước thì chuyện tự chạy model ở máy local còn là xu hướng, nhưng giờ đa số đã chuyển sang cloud-based
    Dù vậy, trong chỉnh sửa ảnh đời thực vẫn còn cảm giác kết cấu không tự nhiên ở đâu đó
    Ví dụ tóc người quá bóng, hoặc cây cối trông như bằng nhựa

    • Kích thước model và nhu cầu tính toán của các model ảnh đã quá lớn nên cá nhân rất khó self-hosting
      Có thể chạy Flux Kontext ở local, nhưng phải dùng model đã quantize và tạo rất chậm nên không hiệu quả
      Hơn nữa, đã có thể tạo ảnh miễn phí trong ChatGPT nên càng ít lý do để cố chấp bám local
      Trong bài test về tóc, chỉ có Gemini 2.5 Flash là khớp đúng màu và chất liệu,
      còn Seedream 4 thì có vấn đề là toàn bộ cân màu bị thay đổi nên tôi không thích
  • Tôi nghĩ Reve cũng nên được đưa vào bài test

    • Với Nano Banana thì tôi không đổi hướng nhìn của nhân vật được, nhưng Reve cho ra kết quả hoàn hảo ngay lần đầu
      Nó xóa vật thể nhân vật đang cầm, xoay ánh nhìn về phía camera, rồi còn chỉnh cả tư thế một cách tự nhiên
      Hơn nữa, cả 4 kết quả đều có chất lượng đủ tốt để dùng được
      Sau đó tôi đọc bài giới thiệu model của Reve và quyết định đăng ký ngay
    • Cảm ơn vì gợi ý, sau này tôi sẽ thử thêm nó vào danh sách test
    • Cảm ơn vì mẹo hay
  • Nỗ lực thì tốt đấy, nhưng các prompt sai kiểu như “cái tháp trong tranh đang nghiêng sang phải” lại chỉ khiến model làm nó nghiêng hơn

    • Câu đó không phải prompt đầu vào thực tế mà chỉ là câu mở đầu
      Số lần thử khác nhau là vì prompt được điều chỉnh theo từng model
  • Nhìn chung đây là một bài test thú vị
    Có người chỉ ra rằng prompt không hoàn hảo, nhưng chính vì vậy lại thực tế như cách người dùng phổ thông sẽ nhập

    • Tôi đã làm việc với prompt từ thời SD 1.5 nên hiểu khá rõ các biến thể prompt cần thiết cho từng model
      Như đã giải thích trong FAQ, tôi thử nhiều phiên bản prompt để model không bị mắc kẹt vào một từ cụ thể
      Ví dụ những câu mệnh lệnh như “Turn on the lights” không chỉ là chỉ thị đơn thuần,
      mà là prompt để kiểm tra năng lực hiểu của multimodal LLM
      Những câu như vậy sẽ tuyệt đối không hiệu quả với các model truyền thống như SDXL