10 điểm bởi GN⁺ 2025-11-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • Nano Banana là mô hình Gemini 2.5 Flash Image của Google, một mô hình tạo ảnh tự hồi quy có thể diễn giải prompt văn bản rất chi tiết để triển khai chính xác các bố cục hình ảnh phức tạp
  • Nhờ bộ mã hóa văn bản mạnh mẽ, mô hình bám sát cả các quy tắc cụ thể, mã màu, và cả đầu vào dựa trên JSON·HTML, cho thấy khả năng tuân thủ prompt rất cao
  • Rẻ hơn gpt-image-1 của ChatGPT, đồng thời nhà phát triển có thể trực tiếp xây dựng ứng dụng tạo ảnh qua API, và có thể dùng thuận tiện với gói Python gemimg
  • Trong nhiều thử nghiệm như chỉnh sửa phức tạp·ghép ảnh·mã nguồn·kết xuất trang web, mô hình cho thấy độ chính xác và tính nhất quán cao, nhưng vẫn có hạn chế ở chuyển đổi phong cách và kết xuất văn bản
  • Mô hình cho thấy khả năng điều khiển chính xác việc tạo ảnh AI, và đang được chú ý như một tiêu chuẩn mới cho visual engineering dựa trên prompt trong tương lai

Sự thay đổi của các mô hình tạo ảnh AI và sự xuất hiện của Nano Banana

  • Gần đây, lĩnh vực tạo ảnh AI đã chứng kiến sự xuất hiện của nhiều mô hình như FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4, nhưng đến tháng 3/2025, tính năng tạo ảnh miễn phí của ChatGPT đã dẫn dắt nhận thức của công chúng
  • Ảnh do ChatGPT tạo ra có thể dễ dàng nhận biết nhờ tông vàng cùng đường nét và typography khá đồng nhất
  • Mô hình nền tảng gpt-image-1 của ChatGPT có kiến trúc tự hồi quy, tạo ảnh theo từng token và mất khoảng 30 giây cho mỗi ảnh chất lượng cao
  • Tháng 8/2025, một mô hình với mật danh “** nano-banana**” xuất hiện trên LMArena, sau đó được Google công bố là Gemini 2.5 Flash Image
    • Mô hình tạo ảnh bằng 1.290 token, và nhờ độ phổ biến tăng lên của ứng dụng Gemini, cái tên “Nano Banana” đã trở thành biệt danh chính thức

Tạo ảnh bằng Nano Banana và cách dùng API

  • Có thể tạo ảnh miễn phí với Nano Banana qua tính năng “Create Image 🍌” trong ứng dụng web/mobile Gemini hoặc trên Google AI Studio
    • Trên AI Studio có hỗ trợ điều chỉnh các tham số chi tiết như tỷ lệ ảnh
    • Ảnh được tạo sẽ có watermark ở góc dưới bên phải
  • Nhà phát triển có thể tạo ảnh theo cách lập trình thông qua endpoint gemini-2.5-flash-image của Gemini API
    • Khoảng $0.04 cho mỗi ảnh 1MP, rẻ hơn mức $0.17 của ChatGPT
  • Gói Python gemimg được viết để giảm độ phức tạp khi dùng API cho phép tạo ảnh bằng prompt đơn giản
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    
    Quảng cáo

Kiểm tra khả năng tuân thủ prompt: pancake hình đầu lâu và chỉnh sửa ảnh

  • Prompt “ảnh pancake hình đầu lâu với việt quất và si-rô cây phong phủ lên trên” được triển khai rất chính xác
    • Các chi tiết như dòng chảy của si-rô, kết cấu pancake, vị trí quả việt quất đều được thể hiện trung thực
  • Sau đó, mô hình tiếp tục thực hiện 5 lệnh chỉnh sửa đồng thời trên cùng ảnh (thêm dâu tây·mâm xôi đen, trang trí bạc hà, đổi đĩa, thêm người vào nền)
    • Tất cả thay đổi đều được phản ánh chính xác, còn những phần không cần thiết thì bị sửa đổi ở mức tối thiểu

Kiểm tra tính nhất quán nhân vật: Ugly Sonic và bắt tay Obama

  • Nano Banana có thể duy trì tính nhất quán của nhân vật cụ thể mà không cần huấn luyện LoRA
  • Với prompt “Ugly Sonic bắt tay Barack Obama”, mô hình thực sự tạo ra ảnh có cả hai nhân vật
    • Khi thêm cụm “ảnh bìa New York Times đoạt giải Pulitzer”, bố cục·màu sắc·chất lượng ánh sáng được cải thiện
    • Có thể loại bỏ yếu tố không mong muốn bằng lệnh “không có văn bản
  • Khi nhập cùng lúc 17 ảnh Ugly Sonic, mô hình tái hiện ngoại hình chính xác hơn

Mối liên hệ giữa Gemini 2.5 Flash và Nano Banana

  • Nano Banana là phiên bản mở rộng bộ mã hóa đa phương thức của Gemini 2.5 Flash,
    • Có khả năng học Markdown·JSON, nhận diện đối tượng và tạo segmentation mask
    • Hỗ trợ cửa sổ ngữ cảnh 32.768 token, dài hơn rất nhiều so với CLIP (77 token) hay T5 (512 token)
    Quảng cáo
  • Với các prompt dựa trên quy tắc phức tạp (ví dụ: điều kiện về màu sắc·trang phục·ánh sáng·bố cục cho ba con mèo), mô hình đáp ứng hoàn hảo
    • ChatGPT lại gặp lỗi về màu sắc và bố cục với cùng prompt

Thử nghiệm tạo mã nguồn và văn bản

  • Với prompt “hình ảnh mã Python Fibonacci được tạo từ các nam châm tủ lạnh”,
    • Nano Banana tái hiện được một phần cấu trúc mã và phản ánh một phần màu tô sáng cú pháp
    • ChatGPT cũng thử tương tự nhưng chênh lệch chất lượng khá rõ
  • Trong thử nghiệm “hiển thị văn bản trước đó bằng nam châm”, một phần system prompt của Nano Banana bị lộ
    • Qua đó xác nhận có quy tắc nội bộ “cấm dùng buzzword
    • Cũng xác nhận rằng khi dùng chữ in hoa (MUST), tỷ lệ tuân thủ prompt được cải thiện

Xử lý prompt lớn: đầu vào HTML·JSON

  • Nano Banana có thể kết xuất toàn bộ mã HTML/CSS/JS để tạo ảnh trang web
    • Bố cục và màu sắc chính xác, nhưng vẫn có một số lỗi về văn bản và tỷ lệ
    Quảng cáo
  • Khi nhập mô tả nhân vật dựa trên JSON, mô hình trực quan hóa một nhân vật pha trộn Paladin/Pirate/Barista
    • Trang phục·đạo cụ·tư thế phần lớn khớp với các trường trong JSON
    • Khi thêm “điều kiện chụp thực tế”, mức độ photorealism được cải thiện, với ánh phản chiếu và chiều sâu được thể hiện rõ

Giới hạn và vấn đề của Nano Banana

  • Với prompt “Make me into Studio Ghibli”, mô hình thất bại trong chuyển đổi phong cách,
    • Do đặc tính tự hồi quy nên tồn tại sự kháng cự với thay đổi phong cách
  • Hầu như không có giới hạn bản quyền, có thể tạo nhiều nhân vật IP trong cùng một cảnh
    • Ví dụ: Mario·Mickey Mouse·Pikachu·Optimus Prime cùng xuất hiện trong một câu lạc bộ
  • khả năng tạo nội dung NSFW, mức kiểm duyệt khá lỏng
  • Vẫn còn các giới hạn kỹ thuật như kết xuất văn bản chưa hoàn thiệnđiểm yếu ở chuyển đổi phong cách

Kết luận và ý nghĩa

  • Nano Banana là một mô hình cho phép điều khiển ảnh chất lượng cao bằng prompt engineering chính xác
  • Nhờ khả năng diễn giải cả đầu vào HTML·JSON·quy tắc phức hợp, mô hình đang nổi lên như một nền tảng thử nghiệm mới cho tạo ảnh AI
  • Đây là một trường hợp kiểm chứng khả năng thực tế và giới hạn của việc tạo ảnh AI, vượt ra ngoài nhận thức đại chúng xoay quanh ChatGPT
  • Tác giả đã công khai toàn bộ prompt thử nghiệm và Jupyter Notebook để đảm bảo khả năng tái lập và tính minh bạch
  • Nano Banana được đánh giá là một ví dụ cho thấy bước ngoặt của kỷ nguyên visual engineering lấy prompt làm trung tâm

1 bình luận

 
GN⁺ 2025-11-14
Ý kiến trên Hacker News
  • Tôi tạo ra hàng chục hình ảnh mỗi ngày để làm storyboard
    Việc kiểm soát đầu ra ngày càng dễ hơn, và giờ đã có thể giữ nhất quán cả nhân vật, ánh sáng lẫn thời điểm trong ngày giữa các cảnh
    Tôi đang dùng 7 lớp prompt layer cho môi trường, máy quay, chủ thể, bố cục, ánh sáng, màu sắc và chất lượng; hơi quá tay một chút nhưng vẫn đang thử nghiệm
    Tôi cũng làm một công cụ chỉnh sửa đơn giản cho phép vẽ bounding box trực tiếp lên ảnh để sửa, rồi gửi ảnh cho Claude để nó tự tạo prompt chỉnh sửa
    Nhờ quy trình này, tôi đã xây dựng được một pipeline tạo video GenAI với chuyển cảnh tự nhiên giữa các cảnh
    • Nhóm chúng tôi cũng dùng nano banana theo cách tương tự để làm storyboard, rồi dùng mô hình img2vid để tạo video full-motion
      Chúng tôi cũng đang cố giữ sự nhất quán của nhân vật, bối cảnh và phong cách, nên có khá nhiều điểm giống với cách bạn làm
      Nhân tiện, bạn cũng có thể xem thử sản phẩm của chúng tôi là Hypernatural.ai
    • Tôi thì ngược lại, cảm thấy một khi kết quả đã chệch hướng thì gần như không thể đưa nó quay lại ý định ban đầu
  • Tôi thích thư viện Python gemimg
    Tôi đã gửi một PR thêm Gemini CLI vào đó, và có thể chạy như bên dưới
    Kết quả nằm ở bình luận này
    • Tôi có một điều muốn hỏi @simonw — phần xem trước gist của phiên terminal gemini-cli được làm như thế nào?
      Nó là thứ được tự làm bằng HTML/CSS như liên kết này, hay có công cụ tự động kiểu amp-code?
    • Tôi thắc mắc vì sao không thêm mục project.scripts vào pyproject.toml
      Làm vậy có vẻ sẽ cho phép cài CLI trực tiếp bằng uv
    • Tác giả lúc đầu nhấn mạnh về mã nguồn mở, nên tôi tò mò liệu có đề cập tới hệ sinh thái QwenEdit không
      Các mô hình chỉnh sửa của Trung Quốc đang ngày càng tiến gần đẳng cấp của NanoBanana, lại là mã nguồn mở nên có thể thao tác ảnh nâng cao dựa trên mask và kernel
      Cũng có thể dùng LoRA để chuyển phong cách, và thú vị hơn nhiều so với các mô hình đóng của Mỹ
      Có vẻ việc trích xuất dữ liệu huấn luyện của Nano Banana để chưng cất (distill) sang mô hình mới cũng sẽ ngày càng dễ hơn
  • Tôi đọc bài của minimaxir rất hứng thú
    Nhờ cửa sổ ngữ cảnh 32.768 token của Nano Banana, tôi đưa Mistral 7B vào giữa trong pipeline tạo ảnh phức tạp để tạo ra 4 biến thể prompt
    Việc nó yếu ở chuyển phong cách đúng là có thật, nhưng nếu đưa hai hình cùng lúc thì kết quả sẽ khá hơn đôi chút
    Một hình dùng làm đối tượng cần biến đổi, hình còn lại dùng làm ảnh tham chiếu phong cách
    Tôi cũng áp dụng cách tiếp cận này trong ví dụ portfolio của tôi
    • Có lẽ sau trào lưu “make me Ghibli” trước đây, đây có thể là một giới hạn rõ ràng được thêm vào để chặn phong cách Studio Ghibli
  • Tôi phát hiện một lỗi thú vị trong ảnh pancake đầu lâu thứ hai
    Quả dâu tây nằm ở hốc mắt phải (bên trái của ảnh), còn quả mâm xôi đen ở phía đối diện
    Có vẻ vấn đề phát sinh vì phần lớn mô tả ảnh được viết theo góc nhìn của người quan sát
    • Nếu là con người thì có lẽ tôi cũng sẽ làm như Nano Banana
      Nếu người dùng muốn đặt quả dâu vào mắt trái của cái đầu lâu thì đáng ra phải ghi rõ là “mắt trái của nó”
    • Tôi nghĩ nhiều người sẽ dễ nhầm “mắt trái” là theo chủ thể hay theo góc máy
    • Tôi cũng đã bỏ sót chỗ này, nhưng sau đó lại chỉ ra đúng vấn đề tương tự trong JSON nhân vật
      Vì vậy tôi ghi rõ trong prompt rằng “trái phải là theo góc nhìn của nhân vật”, và tỷ lệ thành công tăng lên hẳn
    • Tôi cũng nghĩ vậy
      Tác giả nói Nano Banana đã thực hiện chính xác mọi chỉnh sửa, nhưng chỗ này vẫn còn có thể tranh cãi
      Tôi cho rằng “mắt phải” của cái đầu lâu nên được hiểu theo góc nhìn của cái đầu lâu
  • Chỉ cần gửi yêu cầu qua Google AI Studio, rồi để gỡ watermark thì chặn request “watermark_4” trong công cụ dành cho nhà phát triển của trình duyệt
    Sau đó các ảnh được tạo ra sẽ không còn watermark nữa
  • Tôi khá ngạc nhiên khi thấy câu “Nano Banana yếu ở chuyển phong cách”
    Tôi đang làm một dự án hình dung khu phố của mình dưới dạng phong cảnh thế kỷ 18
    Tôi đã dựng mô hình bằng SketchUp và Twinmotion, nhưng rất khó tạo ra hình ảnh trông chân thực
    Tôi đã thử nhiều trình tạo ảnh AI, nhưng Nano Banana là công cụ đầu tiên áp được phong cách mới mà vẫn giữ được tính nhất quán hình học
    Tôi nhận được kết quả ấn tượng chỉ với prompt đơn giản như “hãy biến bức tranh này thành ảnh chụp”
    Tuy nhiên, nếu đưa trực tiếp từ “thế kỷ 18” vào thì đôi khi nó lại ra phong cách hội họa, nên tôi diễn đạt vòng như “ảnh chụp của một con phố lịch sử được bảo tồn”
    Tôi vẫn kết hợp dựng mô hình thủ công, nhưng nhờ Nano Banana mà cách tiếp cận dựng mô hình của tôi đã thay đổi
    • Nhưng nếu đưa hình ảnh nghệ thuật làm tham chiếu phong cách, Nano Banana sẽ không tổng quát hóa tốt khi vượt ra ngoài phạm vi nó đã học
  • Cụm từ “prompt engineered” rốt cuộc chỉ là tự gõ vào thứ bạn muốn thấy
    • Nhưng đó thật sự là một kỹ năng
      Nhiều vấn đề xuất phát từ việc con người không thể diễn đạt rõ mình muốn gì
      Prompt engineering là kỹ năng xử lý độ phức tạp của giao tiếp, và khiến ta nhận ra khoảng cách giữa ngôn từ và ý nghĩa
    • Tùy mô hình mà có những prompt cụ thể nó không hiểu được
    • Giờ đây chúng ta đã hiểu việc tương tác với LLM là một giao diện ngôn ngữ tự nhiên
      Đây là một giao diện mơ hồ khác với ngôn ngữ lập trình, và prompt engineering là kỹ năng mới để xử lý nó
    • Rốt cuộc đây là quá trình lặp đi lặp lại việc chỉnh prompt để có được kết quả mong muốn
    • Ngày xưa người ta gọi kiểu này là “Google Fu
  • Tôi đã thử yêu cầu một cảnh My Neighbor Totoro bản live-action
    Vì đây là kiểu nhân vật khó chuyển sang live-action như Sonic nên tôi khá tò mò về kết quả, nhưng cuối cùng chỉ ra ảnh phong cách digital art chứ không phải photorealism
    Dù đổi từ khóa vẫn vậy, còn trên ChatGPT thì thậm chí không thể thử vì bộ lọc bản quyền
    Dù sao thì bản thân việc thử nghiệm cũng khá thú vị
  • Nano Banana đôi khi phản hồi chỉnh sửa chậm
    Tôi bảo nó biến ảnh chân dung thành phong cách clay animation nhưng gần như không thay đổi gì
    Thế nhưng khi thêm câu “hãy làm trẻ hơn 10 tuổi” thì đột nhiên nó lại biến thành kiểu búp bê đất sét
    • Đó là vì đây là yêu cầu chuyển phong cách, nên giống ví dụ Ghibli, gần như chắc chắn sẽ thất bại
  • Theo kinh nghiệm của tôi, nano banana vẫn thường
    • thực hiện chỉnh sửa ngẫu nhiên lên ảnh, hoặc
    • thay đổi tỷ lệ, hoặc
    • tạo ra những thay đổi tinh vi nhưng trên diện rộng về chi tiết
      Ví dụ, nó có thể tự thêm lò sưởi hay gara vào một căn phòng dù không được yêu cầu
      Ngay cả khi đặt nhiệt độ về 0 thì chuyện này vẫn xảy ra, nên rất khó xây dựng một ứng dụng đáng tin cậy
      Tôi tò mò không biết có ai có trải nghiệm tốt hơn không
    • Phần “ALL CAPS” khá thú vị
      Chữ in hoa có thể bị token hóa khác đi, nên có thể trở thành đầu vào khó hiểu với mô hình
    • Tôi đang phát triển trình biên tập PixLab, và nó làm theo các lệnh viết hoa chính xác như nguyên văn