- Nano Banana là mô hình Gemini 2.5 Flash Image của Google, một mô hình tạo ảnh tự hồi quy có thể diễn giải prompt văn bản rất chi tiết để triển khai chính xác các bố cục hình ảnh phức tạp
- Nhờ bộ mã hóa văn bản mạnh mẽ, mô hình bám sát cả các quy tắc cụ thể, mã màu, và cả đầu vào dựa trên JSON·HTML, cho thấy khả năng tuân thủ prompt rất cao
- Rẻ hơn gpt-image-1 của ChatGPT, đồng thời nhà phát triển có thể trực tiếp xây dựng ứng dụng tạo ảnh qua API, và có thể dùng thuận tiện với gói Python
gemimg
- Trong nhiều thử nghiệm như chỉnh sửa phức tạp·ghép ảnh·mã nguồn·kết xuất trang web, mô hình cho thấy độ chính xác và tính nhất quán cao, nhưng vẫn có hạn chế ở chuyển đổi phong cách và kết xuất văn bản
- Mô hình cho thấy khả năng điều khiển chính xác việc tạo ảnh AI, và đang được chú ý như một tiêu chuẩn mới cho visual engineering dựa trên prompt trong tương lai
Sự thay đổi của các mô hình tạo ảnh AI và sự xuất hiện của Nano Banana
- Gần đây, lĩnh vực tạo ảnh AI đã chứng kiến sự xuất hiện của nhiều mô hình như FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4, nhưng đến tháng 3/2025, tính năng tạo ảnh miễn phí của ChatGPT đã dẫn dắt nhận thức của công chúng
- Ảnh do ChatGPT tạo ra có thể dễ dàng nhận biết nhờ tông vàng cùng đường nét và typography khá đồng nhất
- Mô hình nền tảng gpt-image-1 của ChatGPT có kiến trúc tự hồi quy, tạo ảnh theo từng token và mất khoảng 30 giây cho mỗi ảnh chất lượng cao
- Tháng 8/2025, một mô hình với mật danh “** nano-banana**” xuất hiện trên LMArena, sau đó được Google công bố là Gemini 2.5 Flash Image
- Mô hình tạo ảnh bằng 1.290 token, và nhờ độ phổ biến tăng lên của ứng dụng Gemini, cái tên “Nano Banana” đã trở thành biệt danh chính thức
Tạo ảnh bằng Nano Banana và cách dùng API
Kiểm tra khả năng tuân thủ prompt: pancake hình đầu lâu và chỉnh sửa ảnh
- Prompt “ảnh pancake hình đầu lâu với việt quất và si-rô cây phong phủ lên trên” được triển khai rất chính xác
- Các chi tiết như dòng chảy của si-rô, kết cấu pancake, vị trí quả việt quất đều được thể hiện trung thực
- Sau đó, mô hình tiếp tục thực hiện 5 lệnh chỉnh sửa đồng thời trên cùng ảnh (thêm dâu tây·mâm xôi đen, trang trí bạc hà, đổi đĩa, thêm người vào nền)
- Tất cả thay đổi đều được phản ánh chính xác, còn những phần không cần thiết thì bị sửa đổi ở mức tối thiểu
Kiểm tra tính nhất quán nhân vật: Ugly Sonic và bắt tay Obama
- Nano Banana có thể duy trì tính nhất quán của nhân vật cụ thể mà không cần huấn luyện LoRA
- Với prompt “Ugly Sonic bắt tay Barack Obama”, mô hình thực sự tạo ra ảnh có cả hai nhân vật
- Khi thêm cụm “ảnh bìa New York Times đoạt giải Pulitzer”, bố cục·màu sắc·chất lượng ánh sáng được cải thiện
- Có thể loại bỏ yếu tố không mong muốn bằng lệnh “không có văn bản”
- Khi nhập cùng lúc 17 ảnh Ugly Sonic, mô hình tái hiện ngoại hình chính xác hơn
Mối liên hệ giữa Gemini 2.5 Flash và Nano Banana
- Nano Banana là phiên bản mở rộng bộ mã hóa đa phương thức của Gemini 2.5 Flash,
- Có khả năng học Markdown·JSON, nhận diện đối tượng và tạo segmentation mask
- Hỗ trợ cửa sổ ngữ cảnh 32.768 token, dài hơn rất nhiều so với CLIP (77 token) hay T5 (512 token)
- Với các prompt dựa trên quy tắc phức tạp (ví dụ: điều kiện về màu sắc·trang phục·ánh sáng·bố cục cho ba con mèo), mô hình đáp ứng hoàn hảo
- ChatGPT lại gặp lỗi về màu sắc và bố cục với cùng prompt
Thử nghiệm tạo mã nguồn và văn bản
- Với prompt “hình ảnh mã Python Fibonacci được tạo từ các nam châm tủ lạnh”,
- Nano Banana tái hiện được một phần cấu trúc mã và phản ánh một phần màu tô sáng cú pháp
- ChatGPT cũng thử tương tự nhưng chênh lệch chất lượng khá rõ
- Trong thử nghiệm “hiển thị văn bản trước đó bằng nam châm”, một phần system prompt của Nano Banana bị lộ
- Qua đó xác nhận có quy tắc nội bộ “cấm dùng buzzword”
- Cũng xác nhận rằng khi dùng chữ in hoa (MUST), tỷ lệ tuân thủ prompt được cải thiện
Xử lý prompt lớn: đầu vào HTML·JSON
- Nano Banana có thể kết xuất toàn bộ mã HTML/CSS/JS để tạo ảnh trang web
- Bố cục và màu sắc chính xác, nhưng vẫn có một số lỗi về văn bản và tỷ lệ
- Khi nhập mô tả nhân vật dựa trên JSON, mô hình trực quan hóa một nhân vật pha trộn Paladin/Pirate/Barista
- Trang phục·đạo cụ·tư thế phần lớn khớp với các trường trong JSON
- Khi thêm “điều kiện chụp thực tế”, mức độ photorealism được cải thiện, với ánh phản chiếu và chiều sâu được thể hiện rõ
Giới hạn và vấn đề của Nano Banana
- Với prompt “Make me into Studio Ghibli”, mô hình thất bại trong chuyển đổi phong cách,
- Do đặc tính tự hồi quy nên tồn tại sự kháng cự với thay đổi phong cách
- Hầu như không có giới hạn bản quyền, có thể tạo nhiều nhân vật IP trong cùng một cảnh
- Ví dụ: Mario·Mickey Mouse·Pikachu·Optimus Prime cùng xuất hiện trong một câu lạc bộ
- Có khả năng tạo nội dung NSFW, mức kiểm duyệt khá lỏng
- Vẫn còn các giới hạn kỹ thuật như kết xuất văn bản chưa hoàn thiện và điểm yếu ở chuyển đổi phong cách
Kết luận và ý nghĩa
- Nano Banana là một mô hình cho phép điều khiển ảnh chất lượng cao bằng prompt engineering chính xác
- Nhờ khả năng diễn giải cả đầu vào HTML·JSON·quy tắc phức hợp, mô hình đang nổi lên như một nền tảng thử nghiệm mới cho tạo ảnh AI
- Đây là một trường hợp kiểm chứng khả năng thực tế và giới hạn của việc tạo ảnh AI, vượt ra ngoài nhận thức đại chúng xoay quanh ChatGPT
- Tác giả đã công khai toàn bộ prompt thử nghiệm và Jupyter Notebook để đảm bảo khả năng tái lập và tính minh bạch
- Nano Banana được đánh giá là một ví dụ cho thấy bước ngoặt của kỷ nguyên visual engineering lấy prompt làm trung tâm
Chưa có bình luận nào.