Nano Banana Pro: mô hình tạo ảnh dựa trên Gemini 3 Pro của Google DeepMind

(blog.google)

11 điểm bởi GN⁺ 2025-11-21 | 1 bình luận | Chia sẻ qua WhatsApp

Nano Banana Pro là mô hình tạo và chỉnh sửa ảnh mới nhất của Google DeepMind dựa trên Gemini 3 Pro, cung cấp khả năng hiện thực hóa chính xác các ý tưởng thị giác
Nhờ cải thiện khả năng dựng văn bản và hỗ trợ đa ngôn ngữ, có thể chèn trực tiếp các câu chữ dễ đọc vào hình ảnh như poster, mockup, infographic
Hỗ trợ tạo nội dung thị giác chất lượng cao với các tính năng như kết hợp tối đa 14 ảnh, duy trì tính nhất quán của 5 nhân vật, hỗ trợ độ phân giải 2K~4K
Được tích hợp vào nhiều sản phẩm của Google như Google Ads, Workspace, ứng dụng Gemini, AI Studio, phù hợp cho người dùng phổ thông, chuyên gia và nhà phát triển
Đảm bảo tính minh bạch của ảnh do AI tạo bằng watermark SynthID, đồng thời cung cấp trực tiếp tính năng nhận diện nội dung AI trong ứng dụng Gemini

Tổng quan về Nano Banana Pro

Nano Banana Pro là mô hình dùng năng lực suy luận và tri thức thế giới của Gemini 3 Pro để trực quan hóa thông tin thị giác một cách tinh vi
- Đây là phiên bản nâng cấp ra mắt sau Nano Banana (Gemini 2.5 Flash Image)
- Hỗ trợ nhiều tác vụ thiết kế như lên ý tưởng, trực quan hóa dữ liệu, biến ghi chú viết tay thành sơ đồ

Tính năng chính

Tạo tư liệu thị giác chính xác và giàu ngữ cảnh
- Thông qua năng lực suy luận nâng cao của Gemini 3, có thể tạo nội dung dựa trên sự thật như infographic giáo dục, sơ đồ
- Kết nối với thông tin thời gian thực từ Google Search để trực quan hóa dữ liệu theo thời gian thực như thời tiết, thể thao, công thức nấu ăn
Dựng văn bản đa ngôn ngữ
- Thể hiện văn bản trong ảnh chính xác và dễ đọc, đồng thời có thể dịch và bản địa hóa sang nhiều ngôn ngữ
- Phù hợp để tạo poster hoặc nội dung thương hiệu với nhiều phông chữ, chất liệu, phong cách kiểu chữ khác nhau
Quảng cáo
Biểu đạt hình ảnh chất lượng cao
- Tạo ảnh tổng hợp phức tạp với khả năng kết hợp tối đa 14 ảnh và duy trì tính nhất quán của 5 nhân vật
- Cung cấp khả năng kiểm soát chỉnh sửa chi tiết như chỉnh sửa cục bộ, điều chỉnh góc máy, hiệu chỉnh màu sắc, chuyển đổi ánh sáng
- Hỗ trợ độ phân giải 2K và 4K cùng nhiều tỷ lệ khung hình, đáp ứng cả in ấn lẫn nền tảng số

Môi trường sử dụng

Dành cho người dùng phổ thông và học sinh, sinh viên
- Có thể dùng Nano Banana Pro trong tính năng ‘Create images’ của ứng dụng Gemini
- Người dùng miễn phí được cung cấp số lượt tạo giới hạn, sau đó sẽ chuyển sang Nano Banana cơ bản
- Người đăng ký Google AI Plus, Pro, Ultra có hạn mức tạo cao hơn
Dành cho chuyên gia
- Tính năng tạo ảnh của Google Ads đã được nâng cấp lên Nano Banana Pro
- Cũng có thể sử dụng trong Slides và Vids của Google Workspace
Dành cho nhà phát triển và doanh nghiệp
- Mở rộng hỗ trợ trên Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise
Dành cho nhà sáng tạo
- Thông qua công cụ Flow, nhà làm video và marketer có thể kiểm soát chi tiết theo từng cảnh
Quảng cáo

Nhận diện ảnh do AI tạo và tính minh bạch

Tất cả ảnh được tạo bằng Nano Banana Pro đều được chèn watermark số SynthID để có thể xác định nguồn gốc
- Có thể tải ảnh lên ứng dụng Gemini để trực tiếp kiểm tra “có phải do Google AI tạo hay không”
- Ảnh của người dùng miễn phí và Pro sẽ được thêm watermark hiển thị (Gemini sparkle)
- Người đăng ký Ultra và công cụ dành cho nhà phát triển của AI Studio sẽ được cung cấp canvas sạch không có watermark
SynthID dự kiến sẽ được mở rộng sang nội dung âm thanh và video trong tương lai

Tài liệu liên quan

Build with Nano Banana Pro: giới thiệu mô hình Gemini 3 Pro Image dành cho nhà phát triển
Prompting Tips for Nano Banana Pro: hướng dẫn viết prompt hiệu quả
AI Image Verification in Gemini App: giải thích tính năng xác minh hình ảnh dựa trên SynthID

Không có thêm thông tin trong bài gốc

1 bình luận

GN⁺ 2025-11-21

Ý kiến trên Hacker News

Tuần này Google tạo cảm giác như đang di chuyển như Godzilla
Tôi lần đầu thử liên kết thẻ với AI Studio, nhưng quy trình thanh toán quá rắc rối
Dù đã hoàn tất mọi thiết lập, lỗi “permission denied” vẫn tiếp tục xuất hiện
Nếu phải vất vả đến mức này chỉ để trả tiền, thì mô hình có tốt đến đâu cũng không còn ý nghĩa
- Xin lỗi vì trải nghiệm bất tiện này
  Đội ngũ đang nỗ lực cải thiện để tăng khả năng tiếp cận
  Chúng tôi đang chuẩn bị hệ thống thanh toán tích hợp trong AI Studio để giảm ma sát liên quan đến thanh toán, và dự kiến phát hành toàn cầu vào tháng 1
- API của Google nhìn chung có rào cản gia nhập quá cao
  Dịch vụ khác chỉ cần một API key là xong, còn Google thì phải tạo tài khoản → tạo ứng dụng → bật dịch vụ → tạo ứng dụng OAuth → tải JSON xuống
- Nếu chỉ đơn giản muốn dùng API, tôi khuyên dùng Nano-Banana-Pro của Fal.ai
  Quy trình đăng ký đơn giản hơn nhiều và cung cấp đa dạng mô hình AI
- Tôi cũng đang dùng gói trả phí của Claude và OpenAI, nhưng Gemini khó thanh toán đến mức gần như không thể thử nổi
  Việc phải tạo một dự án GCP chỉ để test đơn giản là quá mức cần thiết
- Mức độ bất tiện lớn đến mức chỉ cần làm một frontend cho nhà phát triển tốt hơn cho các sản phẩm AI của Google thôi cũng đã là một cơ hội kinh doanh
Tôi đã test lại tất cả prompt liên quan đến chỉnh sửa bằng Nano Banana Pro
Nó đã vượt qua các bài test SHRDLU, M&M Van Halen, Scorpio Street
Có thể xem kết quả tại đây
NB Pro cho thấy hiệu năng được cải thiện rõ rệt so với NB gốc
- Ở bài test chỉnh sửa hươu cao cổ, kết quả của NB Pro trông tốt hơn Seedream, nhưng phần đánh giá lại để ngược lại
  Có vẻ như bản thân bài test đó chưa phù hợp
- NB Pro lẽ ra phải vượt qua bài test hươu cao cổ
  Kết quả không hoàn hảo, nhưng nó đã làm đúng theo yêu cầu
- Bài test tháp nghiêng Pisa khá thú vị
  Nó vượt qua các prompt đòi hỏi kiến thức rõ ràng, nhưng việc đơn giản là dựng thẳng một vật đang nghiêng thì vẫn còn khó
- Nếu luôn hiển thị cả ảnh gốc trong từng bài test thì sẽ dễ so sánh hơn
  Hiển thị đồng thời ảnh gốc-kết quả có vẻ trực quan hơn dùng slider
- Trang này thực sự hữu ích. Tôi tò mò không biết có kế hoạch làm benchmark text-to-image với NB Pro hay không
Tôi đã thực hiện phân tích prompt engineering cho Nano Banana trong vài tháng, thì Google lại tung ra phiên bản mới
Mô hình mới hoạt động ngay trong gói gemimg
Tuy nhiên giá khá đắt nên khó đặt làm mô hình mặc định
Theo tài liệu, mô hình tạo tối đa hai ảnh trung gian (giai đoạn Thinking)
Đây có thể là nguyên nhân làm tăng chi phí
- Ví dụ prompt “mắt trái là dâu tây, mắt phải là mâm xôi đen” khá thú vị
  Mô hình nhận biết trái-phải theo góc nhìn của người quan sát nên đặt sai vị trí
  Những lỗi chỉ dẫn tương đối kiểu này cũng là vấn đề phổ biến trong môi trường y tế
  Liên kết ví dụ liên quan
- Hướng dẫn Nano Banana của Max vẫn còn hữu ích
  Phần lớn prompt vẫn hoạt động tốt trên NB Pro
  Liên kết hướng dẫn
  Tôi cũng chia sẻ kết quả thử nghiệm của mình
- Chi phí cho mỗi ảnh đầu vào là $0.0011, không phải $0.06
- Tôi đã phát hành gemimg phiên bản 0.3.2, và phần lớn lỗi ảnh trên NB Pro đã được sửa
  “Chuyển đổi theo phong cách Studio Ghibli” chính xác hơn ChatGPT rất nhiều
  Tuy vậy, các hình ảnh quá chân thực đôi khi lại rơi vào thung lũng kỳ lạ
- Wrapper gemimg vẫn rất hữu ích
  Tôi lại một lần nữa cảm nhận được tầm quan trọng của thiết kế công cụ có khả năng thích ứng để theo kịp thay đổi công nghệ
Khả năng tạo toàn bộ infographic chỉ với prompt ngắn thật đáng kinh ngạc
Tôi yêu cầu “cách dự án Datasette hoạt động” và nhận được kết quả hoàn thiện rất tốt
Liên kết kết quả
- Tính năng này có thể thay đổi mang tính cách mạng chức năng tạo tờ rơi sự kiện trong SaaS
  Hiện tại chúng tôi vẫn render văn bản riêng, nhưng giờ có vẻ đã có thể xử lý một lần là xong
- Nó đã thất bại khi tìm nốt Đô trung tâm trên bàn phím piano
  Tham khảo ảnh kết quả
- Ngay cả với dự án gần như không có nhiều thông tin (player.html), nó vẫn tạo infographic tốt
  Liên kết GitHub
  Nó còn tự động chuyển sang định dạng vuông cho Instagram
- Tôi tò mò không biết infographic về Datasette có khớp với cách nó thực sự hoạt động hay không
Ảnh AI không còn tạo ra artifact quá lộ liễu nữa, nhưng vẫn để lộ là AI do phong cách thể hiện
Đặc biệt, infographic vẫn có thể phân biệt với đồ do con người làm
Có vẻ đây là kết quả của việc một số dataset bị đại diện quá mức
- Con người rất nhạy với những khác biệt thị giác tinh vi
  Các mô hình được huấn luyện theo giá trị trung bình sẽ tạo ra một “không gian hình ảnh trung bình”
  Xem ví dụ liên quan, có thể thấy tinh chỉnh vẫn cho ra kết quả chân thực
- Đây không chỉ đơn thuần là vấn đề dữ liệu
  Một số mô hình cố tình loại bỏ phong cách, khiến chúng mang cảm giác nhân tạo
  Vấn đề là các mô hình mở có thể tinh chỉnh chi tiết bằng LoRA, còn mô hình đóng thì rất khó
- Phần lớn mô hình học từ dữ liệu của toàn bộ web nên cho ra kết quả trung bình có thể dự đoán được
  Nếu muốn hình ảnh độc đáo, thì bản thân prompt phải sáng tạo hơn
- Vẫn còn những lỗi tinh vi ở texture, tỷ lệ, ánh sáng...
  Vì vậy tính năng chỉnh sửa ảnh được xem là bài toán tiếp theo
- Các mô hình được tinh chỉnh bằng phản hồi của con người học theo “gu trung bình”, làm mất đi cá tính
  Các mô hình đời đầu chất lượng thấp hơn nhưng lại tạo ra kết quả thú vị hơn
SynthID là một bước khởi đầu tốt, nhưng có giới hạn là không thể phân biệt nội dung AI không có watermark
Các công ty lớn cần đưa vào các định danh được chuẩn hóa
- Tôi cho rằng việc chính phủ bắt buộc watermark là nguy hiểm
  Nếu Photoshop cũng từng bị áp các quy định như vậy, sự sáng tạo hẳn đã bị hạn chế đáng kể
- Có vẻ một lúc nào đó Apple sẽ tung ra tính năng kiểu Real Photos
  Theo hướng chứng minh đó là ảnh chụp từ camera thật, rồi gắn dấu xác thực trong iMessage
- Lý do các công ty áp dụng watermark là để quản lý việc tái huấn luyện dữ liệu
  Cuối cùng, các mô hình thương mại lớn có lẽ sẽ mặc định ép buộc watermark
- Nếu có định danh chuẩn, rồi cũng sẽ xuất hiện phần mềm gỡ bỏ nó
  Đây sẽ là một trò mèo vờn chuột không hồi kết
- Có dự án C2PA đang tồn tại để giải quyết vấn đề này
Các họa sĩ hoạt hình 2D vẫn có thể yên tâm phần nào
Tôi đã thử tạo sprite sheet, và nó chỉ lặp lại khung hình đơn giản chứ không thể tạo chuyển động trung gian tự nhiên (interpolation)
Bộ sưu tập tài liệu chính thức
Developer Blog
Trang DeepMind
Model Card PDF
Giới thiệu SynthID
Đây là mô hình tạo ảnh đầu tiên vượt qua bài test piano của tôi
Nó lặp lại chính xác mẫu các phím đen theo từng quãng tám
Các mô hình trước đây luôn thể hiện sai bố cục bàn phím
- Tuy vậy, nếu ra ngoài chuẩn 88 phím thì lỗi vẫn còn nhiều
  Ngay cả yêu cầu tô màu một nốt cụ thể nó cũng xử lý ngẫu nhiên
  Piano là một vật thể được chuẩn hóa nên hẳn phải có rất nhiều dữ liệu huấn luyện, vậy mà mức độ hiểu vẫn chưa đủ
- Duy trì một mẫu lặp trong thời gian dài là việc khó
  Việc giữ được tính nhất quán trên toàn bộ 88 phím là điều rất ấn tượng
Giờ đây mô hình đã có thể render văn bản tự nhiên bên trong hình ảnh
Tính năng từng là bất khả thi trong quá khứ nay đã bắt đầu giống như mặc định
- Tôi cũng đồng ý. Nhưng những vùng giao nhau giữa thị giác và mã như tạo icon vẫn còn yếu
  Các thiết kế tinh vi cần canh chỉnh đường cong, khoảng cách, sự cân bằng vẫn là việc con người làm tốt hơn

Nano Banana Pro: mô hình tạo ảnh dựa trên Gemini 3 Pro của Google DeepMind

Tổng quan về Nano Banana Pro

Tính năng chính

Môi trường sử dụng

Nhận diện ảnh do AI tạo và tính minh bạch

Tài liệu liên quan

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News