- Nội dung có dạng so sánh kết quả của nhiều công cụ chỉnh sửa hình ảnh bằng AI tạo sinh
- Cấu trúc hiển thị so sánh trực quan các kết quả chỉnh sửa mà từng công cụ tạo ra với cùng một đầu vào
- Trên trang có dòng “Loading editing comparisons...”, cho thấy đang tải phần so sánh chỉnh sửa
- Ngoài tiêu đề ra, không có thông tin cụ thể về tên công cụ, tiêu chí so sánh hay mô tả kết quả
- Nhìn chung đây có vẻ là giao diện để so sánh hiệu năng chỉnh sửa hình ảnh bằng AI, nhưng nguyên văn không có chi tiết cụ thể
Tổng quan trang
- Tiêu đề là “Generative AI Image Editing Showdown”, hàm ý việc so sánh nhiều mô hình chỉnh sửa hình ảnh bằng AI
- Phần nội dung chỉ có dòng “Loading editing comparisons...”, không bao gồm kết quả so sánh hay phần giải thích
- Nguyên văn không có thêm văn bản, dữ liệu, hình ảnh, danh sách công cụ hay tiêu chí đánh giá
Giới hạn của thông tin được cung cấp
- Nguyên văn không có mô tả cụ thể về kết quả chỉnh sửa hay nội dung so sánh
- Vì vậy mục đích so sánh, các mô hình AI được dùng và phương thức đánh giá đều không được nêu rõ
- Tổng thể, nội dung đang ở trạng thái tải, nên chưa cung cấp thông tin thực chất
1 bình luận
Ý kiến trên Hacker News
Mọi người đang đánh giá thấp Gemini 2.5 Flash Image / Nano Banana
Nó mạnh hơn hẳn các model khác trong khi giá mỗi ảnh vẫn như nhau, và nhờ bộ mã hóa văn bản nên có thể xử lý các prompt phức tạp và tinh tế tốt hơn nhiều
Tôi đã đăng ví dụ bằng gói Python gemimg do mình তৈরি, và cũng đang chuẩn bị một bài blog với nhiều trường hợp đa dạng hơn
Trong AI Studio của Google còn hỗ trợ tạo ảnh miễn phí, thậm chí điều khiển được cả tỷ lệ khung hình
Dù vậy, việc Seedream 4.0 thắng trong bài test lần này vẫn khá bất ngờ
Nếu bỏ qua tính năng tích hợp trong ChatGPT hay trào lưu phong cách Ghibli, tôi nghĩ đây là một trong những model chỉnh sửa ảnh nổi tiếng nhất
Với nhu cầu của tôi thì không thành vấn đề lớn, nhưng với ai cần độ nhất quán màu sắc, Nano Banana có thể là lựa chọn tốt hơn
Đây cũng không phải các yêu cầu nằm ở ranh giới bản quyền gì cả mà vẫn hay gặp lỗi kiểu này
Nhưng mỗi khi chạy thành công thì kết quả rất ấn tượng
Ở lần thử thứ hai, tôi cho nó phân tích ảnh trước để rút ra danh sách đồ đạc lộn xộn, rồi mới đưa prompt xóa chúng đi, và kết quả tốt hơn hẳn
Cuối cùng lại càng thấy rõ tầm quan trọng của prompt engineering
Flux thì tốt đến mức đáng ngạc nhiên, nhưng đa số mọi người, kể cả tôi, cuối cùng vẫn dùng các model quen tay như ChatGPT hay Gemini làm mặc định
Kiểu so sánh này thực tế hơn nhiều so với các biểu đồ benchmark
Tôi dùng Nano Banana khá thường xuyên, nhưng nó yếu trong việc chỉnh sửa kiến trúc ngoại thất hay cảnh quan
Những thứ như vỉa hè, rãnh thoát nước hay khớp màu gần như bất khả thi
Nano Banana cũng xử lý biên không chính xác nên ảnh bị lệch
Nếu nhìn từ góc độ người đã thấy cột mốc của năm 2022, thì các bản demo hiện tại thật sự đáng kinh ngạc đến mức không thể so với thời SD1·2·3
Có vẻ chúng ta đã bước vào thời kỳ mà các model thực sự hiểu prompt và hình ảnh
Đây là giai đoạn mà kỹ thuật tiếp tục tiến bộ và sức sáng tạo được mở rộng bùng nổ
Việc thay đổi prompt hay số lần thử rồi chỉ đưa ra kết quả mình ưng ý nhất làm loãng tính khách quan của bài test
Cần có điều kiện thống nhất như cùng một prompt và cùng một seed cho mọi model, mỗi model tạo 5 lần
Ví dụ, Gemini 2.5 Flash đã được cho quá nhiều tự do trong bài test “Girl with Pearl Earring”,
trong khi OpenAI gpt-image-1 lại bị tính là thất bại dù cho ra kết quả tốt hơn nhiều với ít lần thử hơn
Trong bài tôi đăng trên blog Replicate, tôi đã tự so sánh trực tiếp nhiều model
Trong số đó, Qwen Image Edit là model rẻ nhất và nhanh nhất, đồng thời xử lý tốt phần lớn tác vụ chỉnh sửa
Nếu làm một app chỉnh sửa ảnh, có lẽ tôi sẽ chọn model này
Bản so sánh nói chung khá thú vị, nhưng ảnh hươu cao cổ ở cuối thực ra chỉ bị gập người chứ không hề ngắn lại
Dù vậy tôi vẫn thường chọn kết quả của Gemini, và giá mà có thang điểm 10 điểm thay vì kiểu pass/fail thì hay hơn
Nếu ngoài đời có một triển lãm như thế thì tôi rất muốn đi xem
Gần đây tôi hầu như không còn tạo ảnh AI nữa
Khoảng một năm rưỡi trước thì chuyện tự chạy model ở máy local còn là xu hướng, nhưng giờ đa số đã chuyển sang cloud-based
Dù vậy, trong chỉnh sửa ảnh đời thực vẫn còn cảm giác kết cấu không tự nhiên ở đâu đó
Ví dụ tóc người quá bóng, hoặc cây cối trông như bằng nhựa
Có thể chạy Flux Kontext ở local, nhưng phải dùng model đã quantize và tạo rất chậm nên không hiệu quả
Hơn nữa, đã có thể tạo ảnh miễn phí trong ChatGPT nên càng ít lý do để cố chấp bám local
Trong bài test về tóc, chỉ có Gemini 2.5 Flash là khớp đúng màu và chất liệu,
còn Seedream 4 thì có vấn đề là toàn bộ cân màu bị thay đổi nên tôi không thích
Tôi nghĩ Reve cũng nên được đưa vào bài test
Nó xóa vật thể nhân vật đang cầm, xoay ánh nhìn về phía camera, rồi còn chỉnh cả tư thế một cách tự nhiên
Hơn nữa, cả 4 kết quả đều có chất lượng đủ tốt để dùng được
Sau đó tôi đọc bài giới thiệu model của Reve và quyết định đăng ký ngay
Nỗ lực thì tốt đấy, nhưng các prompt sai kiểu như “cái tháp trong tranh đang nghiêng sang phải” lại chỉ khiến model làm nó nghiêng hơn
Số lần thử khác nhau là vì prompt được điều chỉnh theo từng model
Nhìn chung đây là một bài test thú vị
Có người chỉ ra rằng prompt không hoàn hảo, nhưng chính vì vậy lại thực tế như cách người dùng phổ thông sẽ nhập
Như đã giải thích trong FAQ, tôi thử nhiều phiên bản prompt để model không bị mắc kẹt vào một từ cụ thể
Ví dụ những câu mệnh lệnh như “Turn on the lights” không chỉ là chỉ thị đơn thuần,
mà là prompt để kiểm tra năng lực hiểu của multimodal LLM
Những câu như vậy sẽ tuyệt đối không hiệu quả với các model truyền thống như SDXL