- Nano Banana là mô hình Gemini 2.5 Flash Image của Google, một mô hình tạo ảnh tự hồi quy có thể diễn giải prompt văn bản rất chi tiết để triển khai chính xác các bố cục hình ảnh phức tạp
- Nhờ bộ mã hóa văn bản mạnh mẽ, mô hình bám sát cả các quy tắc cụ thể, mã màu, và cả đầu vào dựa trên JSON·HTML, cho thấy khả năng tuân thủ prompt rất cao
- Rẻ hơn gpt-image-1 của ChatGPT, đồng thời nhà phát triển có thể trực tiếp xây dựng ứng dụng tạo ảnh qua API, và có thể dùng thuận tiện với gói Python
gemimg - Trong nhiều thử nghiệm như chỉnh sửa phức tạp·ghép ảnh·mã nguồn·kết xuất trang web, mô hình cho thấy độ chính xác và tính nhất quán cao, nhưng vẫn có hạn chế ở chuyển đổi phong cách và kết xuất văn bản
- Mô hình cho thấy khả năng điều khiển chính xác việc tạo ảnh AI, và đang được chú ý như một tiêu chuẩn mới cho visual engineering dựa trên prompt trong tương lai
Sự thay đổi của các mô hình tạo ảnh AI và sự xuất hiện của Nano Banana
- Gần đây, lĩnh vực tạo ảnh AI đã chứng kiến sự xuất hiện của nhiều mô hình như FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4, nhưng đến tháng 3/2025, tính năng tạo ảnh miễn phí của ChatGPT đã dẫn dắt nhận thức của công chúng
- Ảnh do ChatGPT tạo ra có thể dễ dàng nhận biết nhờ tông vàng cùng đường nét và typography khá đồng nhất
- Mô hình nền tảng gpt-image-1 của ChatGPT có kiến trúc tự hồi quy, tạo ảnh theo từng token và mất khoảng 30 giây cho mỗi ảnh chất lượng cao
- Tháng 8/2025, một mô hình với mật danh “** nano-banana**” xuất hiện trên LMArena, sau đó được Google công bố là Gemini 2.5 Flash Image
- Mô hình tạo ảnh bằng 1.290 token, và nhờ độ phổ biến tăng lên của ứng dụng Gemini, cái tên “Nano Banana” đã trở thành biệt danh chính thức
Tạo ảnh bằng Nano Banana và cách dùng API
- Có thể tạo ảnh miễn phí với Nano Banana qua tính năng “Create Image 🍌” trong ứng dụng web/mobile Gemini hoặc trên Google AI Studio
- Trên AI Studio có hỗ trợ điều chỉnh các tham số chi tiết như tỷ lệ ảnh
- Ảnh được tạo sẽ có watermark ở góc dưới bên phải
- Nhà phát triển có thể tạo ảnh theo cách lập trình thông qua endpoint
gemini-2.5-flash-imagecủa Gemini API- Khoảng $0.04 cho mỗi ảnh 1MP, rẻ hơn mức $0.17 của ChatGPT
- Gói Python
gemimgđược viết để giảm độ phức tạp khi dùng API cho phép tạo ảnh bằng prompt đơn giảnfrom gemimg import GemImg g = GemImg(api_key="AI...") g.generate("A kitten with prominent purple-and-green fur.")
Kiểm tra khả năng tuân thủ prompt: pancake hình đầu lâu và chỉnh sửa ảnh
- Prompt “ảnh pancake hình đầu lâu với việt quất và si-rô cây phong phủ lên trên” được triển khai rất chính xác
- Các chi tiết như dòng chảy của si-rô, kết cấu pancake, vị trí quả việt quất đều được thể hiện trung thực
- Sau đó, mô hình tiếp tục thực hiện 5 lệnh chỉnh sửa đồng thời trên cùng ảnh (thêm dâu tây·mâm xôi đen, trang trí bạc hà, đổi đĩa, thêm người vào nền)
- Tất cả thay đổi đều được phản ánh chính xác, còn những phần không cần thiết thì bị sửa đổi ở mức tối thiểu
Kiểm tra tính nhất quán nhân vật: Ugly Sonic và bắt tay Obama
- Nano Banana có thể duy trì tính nhất quán của nhân vật cụ thể mà không cần huấn luyện LoRA
- Với prompt “Ugly Sonic bắt tay Barack Obama”, mô hình thực sự tạo ra ảnh có cả hai nhân vật
- Khi thêm cụm “ảnh bìa New York Times đoạt giải Pulitzer”, bố cục·màu sắc·chất lượng ánh sáng được cải thiện
- Có thể loại bỏ yếu tố không mong muốn bằng lệnh “không có văn bản”
- Khi nhập cùng lúc 17 ảnh Ugly Sonic, mô hình tái hiện ngoại hình chính xác hơn
Mối liên hệ giữa Gemini 2.5 Flash và Nano Banana
- Nano Banana là phiên bản mở rộng bộ mã hóa đa phương thức của Gemini 2.5 Flash,
- Có khả năng học Markdown·JSON, nhận diện đối tượng và tạo segmentation mask
- Hỗ trợ cửa sổ ngữ cảnh 32.768 token, dài hơn rất nhiều so với CLIP (77 token) hay T5 (512 token)
- Với các prompt dựa trên quy tắc phức tạp (ví dụ: điều kiện về màu sắc·trang phục·ánh sáng·bố cục cho ba con mèo), mô hình đáp ứng hoàn hảo
- ChatGPT lại gặp lỗi về màu sắc và bố cục với cùng prompt
Thử nghiệm tạo mã nguồn và văn bản
- Với prompt “hình ảnh mã Python Fibonacci được tạo từ các nam châm tủ lạnh”,
- Nano Banana tái hiện được một phần cấu trúc mã và phản ánh một phần màu tô sáng cú pháp
- ChatGPT cũng thử tương tự nhưng chênh lệch chất lượng khá rõ
- Trong thử nghiệm “hiển thị văn bản trước đó bằng nam châm”, một phần system prompt của Nano Banana bị lộ
- Qua đó xác nhận có quy tắc nội bộ “cấm dùng buzzword”
- Cũng xác nhận rằng khi dùng chữ in hoa (MUST), tỷ lệ tuân thủ prompt được cải thiện
Xử lý prompt lớn: đầu vào HTML·JSON
- Nano Banana có thể kết xuất toàn bộ mã HTML/CSS/JS để tạo ảnh trang web
- Bố cục và màu sắc chính xác, nhưng vẫn có một số lỗi về văn bản và tỷ lệ
- Khi nhập mô tả nhân vật dựa trên JSON, mô hình trực quan hóa một nhân vật pha trộn Paladin/Pirate/Barista
- Trang phục·đạo cụ·tư thế phần lớn khớp với các trường trong JSON
- Khi thêm “điều kiện chụp thực tế”, mức độ photorealism được cải thiện, với ánh phản chiếu và chiều sâu được thể hiện rõ
Giới hạn và vấn đề của Nano Banana
- Với prompt “Make me into Studio Ghibli”, mô hình thất bại trong chuyển đổi phong cách,
- Do đặc tính tự hồi quy nên tồn tại sự kháng cự với thay đổi phong cách
- Hầu như không có giới hạn bản quyền, có thể tạo nhiều nhân vật IP trong cùng một cảnh
- Ví dụ: Mario·Mickey Mouse·Pikachu·Optimus Prime cùng xuất hiện trong một câu lạc bộ
- Có khả năng tạo nội dung NSFW, mức kiểm duyệt khá lỏng
- Vẫn còn các giới hạn kỹ thuật như kết xuất văn bản chưa hoàn thiện và điểm yếu ở chuyển đổi phong cách
Kết luận và ý nghĩa
- Nano Banana là một mô hình cho phép điều khiển ảnh chất lượng cao bằng prompt engineering chính xác
- Nhờ khả năng diễn giải cả đầu vào HTML·JSON·quy tắc phức hợp, mô hình đang nổi lên như một nền tảng thử nghiệm mới cho tạo ảnh AI
- Đây là một trường hợp kiểm chứng khả năng thực tế và giới hạn của việc tạo ảnh AI, vượt ra ngoài nhận thức đại chúng xoay quanh ChatGPT
- Tác giả đã công khai toàn bộ prompt thử nghiệm và Jupyter Notebook để đảm bảo khả năng tái lập và tính minh bạch
- Nano Banana được đánh giá là một ví dụ cho thấy bước ngoặt của kỷ nguyên visual engineering lấy prompt làm trung tâm
1 bình luận
Ý kiến trên Hacker News
Việc kiểm soát đầu ra ngày càng dễ hơn, và giờ đã có thể giữ nhất quán cả nhân vật, ánh sáng lẫn thời điểm trong ngày giữa các cảnh
Tôi đang dùng 7 lớp prompt layer cho môi trường, máy quay, chủ thể, bố cục, ánh sáng, màu sắc và chất lượng; hơi quá tay một chút nhưng vẫn đang thử nghiệm
Tôi cũng làm một công cụ chỉnh sửa đơn giản cho phép vẽ bounding box trực tiếp lên ảnh để sửa, rồi gửi ảnh cho Claude để nó tự tạo prompt chỉnh sửa
Nhờ quy trình này, tôi đã xây dựng được một pipeline tạo video GenAI với chuyển cảnh tự nhiên giữa các cảnh
Chúng tôi cũng đang cố giữ sự nhất quán của nhân vật, bối cảnh và phong cách, nên có khá nhiều điểm giống với cách bạn làm
Nhân tiện, bạn cũng có thể xem thử sản phẩm của chúng tôi là Hypernatural.ai
Tôi đã gửi một PR thêm Gemini CLI vào đó, và có thể chạy như bên dưới
Kết quả nằm ở bình luận này
Nó là thứ được tự làm bằng HTML/CSS như liên kết này, hay có công cụ tự động kiểu amp-code?
Làm vậy có vẻ sẽ cho phép cài CLI trực tiếp bằng uv
Các mô hình chỉnh sửa của Trung Quốc đang ngày càng tiến gần đẳng cấp của NanoBanana, lại là mã nguồn mở nên có thể thao tác ảnh nâng cao dựa trên mask và kernel
Cũng có thể dùng LoRA để chuyển phong cách, và thú vị hơn nhiều so với các mô hình đóng của Mỹ
Có vẻ việc trích xuất dữ liệu huấn luyện của Nano Banana để chưng cất (distill) sang mô hình mới cũng sẽ ngày càng dễ hơn
Nhờ cửa sổ ngữ cảnh 32.768 token của Nano Banana, tôi đưa Mistral 7B vào giữa trong pipeline tạo ảnh phức tạp để tạo ra 4 biến thể prompt
Việc nó yếu ở chuyển phong cách đúng là có thật, nhưng nếu đưa hai hình cùng lúc thì kết quả sẽ khá hơn đôi chút
Một hình dùng làm đối tượng cần biến đổi, hình còn lại dùng làm ảnh tham chiếu phong cách
Tôi cũng áp dụng cách tiếp cận này trong ví dụ portfolio của tôi
Quả dâu tây nằm ở hốc mắt phải (bên trái của ảnh), còn quả mâm xôi đen ở phía đối diện
Có vẻ vấn đề phát sinh vì phần lớn mô tả ảnh được viết theo góc nhìn của người quan sát
Nếu người dùng muốn đặt quả dâu vào mắt trái của cái đầu lâu thì đáng ra phải ghi rõ là “mắt trái của nó”
Vì vậy tôi ghi rõ trong prompt rằng “trái phải là theo góc nhìn của nhân vật”, và tỷ lệ thành công tăng lên hẳn
Tác giả nói Nano Banana đã thực hiện chính xác mọi chỉnh sửa, nhưng chỗ này vẫn còn có thể tranh cãi
Tôi cho rằng “mắt phải” của cái đầu lâu nên được hiểu theo góc nhìn của cái đầu lâu
Sau đó các ảnh được tạo ra sẽ không còn watermark nữa
Tôi đang làm một dự án hình dung khu phố của mình dưới dạng phong cảnh thế kỷ 18
Tôi đã dựng mô hình bằng SketchUp và Twinmotion, nhưng rất khó tạo ra hình ảnh trông chân thực
Tôi đã thử nhiều trình tạo ảnh AI, nhưng Nano Banana là công cụ đầu tiên áp được phong cách mới mà vẫn giữ được tính nhất quán hình học
Tôi nhận được kết quả ấn tượng chỉ với prompt đơn giản như “hãy biến bức tranh này thành ảnh chụp”
Tuy nhiên, nếu đưa trực tiếp từ “thế kỷ 18” vào thì đôi khi nó lại ra phong cách hội họa, nên tôi diễn đạt vòng như “ảnh chụp của một con phố lịch sử được bảo tồn”
Tôi vẫn kết hợp dựng mô hình thủ công, nhưng nhờ Nano Banana mà cách tiếp cận dựng mô hình của tôi đã thay đổi
Nhiều vấn đề xuất phát từ việc con người không thể diễn đạt rõ mình muốn gì
Prompt engineering là kỹ năng xử lý độ phức tạp của giao tiếp, và khiến ta nhận ra khoảng cách giữa ngôn từ và ý nghĩa
Đây là một giao diện mơ hồ khác với ngôn ngữ lập trình, và prompt engineering là kỹ năng mới để xử lý nó
Vì đây là kiểu nhân vật khó chuyển sang live-action như Sonic nên tôi khá tò mò về kết quả, nhưng cuối cùng chỉ ra ảnh phong cách digital art chứ không phải photorealism
Dù đổi từ khóa vẫn vậy, còn trên ChatGPT thì thậm chí không thể thử vì bộ lọc bản quyền
Dù sao thì bản thân việc thử nghiệm cũng khá thú vị
Tôi bảo nó biến ảnh chân dung thành phong cách clay animation nhưng gần như không thay đổi gì
Thế nhưng khi thêm câu “hãy làm trẻ hơn 10 tuổi” thì đột nhiên nó lại biến thành kiểu búp bê đất sét
Ví dụ, nó có thể tự thêm lò sưởi hay gara vào một căn phòng dù không được yêu cầu
Ngay cả khi đặt nhiệt độ về 0 thì chuyện này vẫn xảy ra, nên rất khó xây dựng một ứng dụng đáng tin cậy
Tôi tò mò không biết có ai có trải nghiệm tốt hơn không
Chữ in hoa có thể bị token hóa khác đi, nên có thể trở thành đầu vào khó hiểu với mô hình