- Nano Banana Pro là mô hình tạo và chỉnh sửa ảnh mới nhất của Google DeepMind dựa trên Gemini 3 Pro, cung cấp khả năng hiện thực hóa chính xác các ý tưởng thị giác
- Nhờ cải thiện khả năng dựng văn bản và hỗ trợ đa ngôn ngữ, có thể chèn trực tiếp các câu chữ dễ đọc vào hình ảnh như poster, mockup, infographic
- Hỗ trợ tạo nội dung thị giác chất lượng cao với các tính năng như kết hợp tối đa 14 ảnh, duy trì tính nhất quán của 5 nhân vật, hỗ trợ độ phân giải 2K~4K
- Được tích hợp vào nhiều sản phẩm của Google như Google Ads, Workspace, ứng dụng Gemini, AI Studio, phù hợp cho người dùng phổ thông, chuyên gia và nhà phát triển
- Đảm bảo tính minh bạch của ảnh do AI tạo bằng watermark SynthID, đồng thời cung cấp trực tiếp tính năng nhận diện nội dung AI trong ứng dụng Gemini
Tổng quan về Nano Banana Pro
- Nano Banana Pro là mô hình dùng năng lực suy luận và tri thức thế giới của Gemini 3 Pro để trực quan hóa thông tin thị giác một cách tinh vi
- Đây là phiên bản nâng cấp ra mắt sau Nano Banana (Gemini 2.5 Flash Image)
- Hỗ trợ nhiều tác vụ thiết kế như lên ý tưởng, trực quan hóa dữ liệu, biến ghi chú viết tay thành sơ đồ
Tính năng chính
- Tạo tư liệu thị giác chính xác và giàu ngữ cảnh
- Thông qua năng lực suy luận nâng cao của Gemini 3, có thể tạo nội dung dựa trên sự thật như infographic giáo dục, sơ đồ
- Kết nối với thông tin thời gian thực từ Google Search để trực quan hóa dữ liệu theo thời gian thực như thời tiết, thể thao, công thức nấu ăn
- Dựng văn bản đa ngôn ngữ
- Thể hiện văn bản trong ảnh chính xác và dễ đọc, đồng thời có thể dịch và bản địa hóa sang nhiều ngôn ngữ
- Phù hợp để tạo poster hoặc nội dung thương hiệu với nhiều phông chữ, chất liệu, phong cách kiểu chữ khác nhau
- Biểu đạt hình ảnh chất lượng cao
- Tạo ảnh tổng hợp phức tạp với khả năng kết hợp tối đa 14 ảnh và duy trì tính nhất quán của 5 nhân vật
- Cung cấp khả năng kiểm soát chỉnh sửa chi tiết như chỉnh sửa cục bộ, điều chỉnh góc máy, hiệu chỉnh màu sắc, chuyển đổi ánh sáng
- Hỗ trợ độ phân giải 2K và 4K cùng nhiều tỷ lệ khung hình, đáp ứng cả in ấn lẫn nền tảng số
Môi trường sử dụng
- Dành cho người dùng phổ thông và học sinh, sinh viên
- Có thể dùng Nano Banana Pro trong tính năng ‘Create images’ của ứng dụng Gemini
- Người dùng miễn phí được cung cấp số lượt tạo giới hạn, sau đó sẽ chuyển sang Nano Banana cơ bản
- Người đăng ký Google AI Plus, Pro, Ultra có hạn mức tạo cao hơn
- Dành cho chuyên gia
- Tính năng tạo ảnh của Google Ads đã được nâng cấp lên Nano Banana Pro
- Cũng có thể sử dụng trong Slides và Vids của Google Workspace
- Dành cho nhà phát triển và doanh nghiệp
- Mở rộng hỗ trợ trên Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise
- Dành cho nhà sáng tạo
- Thông qua công cụ Flow, nhà làm video và marketer có thể kiểm soát chi tiết theo từng cảnh
Nhận diện ảnh do AI tạo và tính minh bạch
- Tất cả ảnh được tạo bằng Nano Banana Pro đều được chèn watermark số SynthID để có thể xác định nguồn gốc
- Có thể tải ảnh lên ứng dụng Gemini để trực tiếp kiểm tra “có phải do Google AI tạo hay không”
- Ảnh của người dùng miễn phí và Pro sẽ được thêm watermark hiển thị (Gemini sparkle)
- Người đăng ký Ultra và công cụ dành cho nhà phát triển của AI Studio sẽ được cung cấp canvas sạch không có watermark
- SynthID dự kiến sẽ được mở rộng sang nội dung âm thanh và video trong tương lai
Tài liệu liên quan
- Build with Nano Banana Pro: giới thiệu mô hình Gemini 3 Pro Image dành cho nhà phát triển
- Prompting Tips for Nano Banana Pro: hướng dẫn viết prompt hiệu quả
- AI Image Verification in Gemini App: giải thích tính năng xác minh hình ảnh dựa trên SynthID
Không có thêm thông tin trong bài gốc
1 bình luận
Ý kiến trên Hacker News
Tuần này Google tạo cảm giác như đang di chuyển như Godzilla
Tôi lần đầu thử liên kết thẻ với AI Studio, nhưng quy trình thanh toán quá rắc rối
Dù đã hoàn tất mọi thiết lập, lỗi “permission denied” vẫn tiếp tục xuất hiện
Nếu phải vất vả đến mức này chỉ để trả tiền, thì mô hình có tốt đến đâu cũng không còn ý nghĩa
Đội ngũ đang nỗ lực cải thiện để tăng khả năng tiếp cận
Chúng tôi đang chuẩn bị hệ thống thanh toán tích hợp trong AI Studio để giảm ma sát liên quan đến thanh toán, và dự kiến phát hành toàn cầu vào tháng 1
Dịch vụ khác chỉ cần một API key là xong, còn Google thì phải tạo tài khoản → tạo ứng dụng → bật dịch vụ → tạo ứng dụng OAuth → tải JSON xuống
Quy trình đăng ký đơn giản hơn nhiều và cung cấp đa dạng mô hình AI
Việc phải tạo một dự án GCP chỉ để test đơn giản là quá mức cần thiết
Tôi đã test lại tất cả prompt liên quan đến chỉnh sửa bằng Nano Banana Pro
Nó đã vượt qua các bài test SHRDLU, M&M Van Halen, Scorpio Street
Có thể xem kết quả tại đây
NB Pro cho thấy hiệu năng được cải thiện rõ rệt so với NB gốc
Có vẻ như bản thân bài test đó chưa phù hợp
Kết quả không hoàn hảo, nhưng nó đã làm đúng theo yêu cầu
Nó vượt qua các prompt đòi hỏi kiến thức rõ ràng, nhưng việc đơn giản là dựng thẳng một vật đang nghiêng thì vẫn còn khó
Hiển thị đồng thời ảnh gốc-kết quả có vẻ trực quan hơn dùng slider
Tôi đã thực hiện phân tích prompt engineering cho Nano Banana trong vài tháng, thì Google lại tung ra phiên bản mới
Mô hình mới hoạt động ngay trong gói gemimg
Tuy nhiên giá khá đắt nên khó đặt làm mô hình mặc định
Theo tài liệu, mô hình tạo tối đa hai ảnh trung gian (giai đoạn Thinking)
Đây có thể là nguyên nhân làm tăng chi phí
Mô hình nhận biết trái-phải theo góc nhìn của người quan sát nên đặt sai vị trí
Những lỗi chỉ dẫn tương đối kiểu này cũng là vấn đề phổ biến trong môi trường y tế
Liên kết ví dụ liên quan
Phần lớn prompt vẫn hoạt động tốt trên NB Pro
Liên kết hướng dẫn
Tôi cũng chia sẻ kết quả thử nghiệm của mình
“Chuyển đổi theo phong cách Studio Ghibli” chính xác hơn ChatGPT rất nhiều
Tuy vậy, các hình ảnh quá chân thực đôi khi lại rơi vào thung lũng kỳ lạ
Tôi lại một lần nữa cảm nhận được tầm quan trọng của thiết kế công cụ có khả năng thích ứng để theo kịp thay đổi công nghệ
Khả năng tạo toàn bộ infographic chỉ với prompt ngắn thật đáng kinh ngạc
Tôi yêu cầu “cách dự án Datasette hoạt động” và nhận được kết quả hoàn thiện rất tốt
Liên kết kết quả
Hiện tại chúng tôi vẫn render văn bản riêng, nhưng giờ có vẻ đã có thể xử lý một lần là xong
Tham khảo ảnh kết quả
Liên kết GitHub
Nó còn tự động chuyển sang định dạng vuông cho Instagram
Ảnh AI không còn tạo ra artifact quá lộ liễu nữa, nhưng vẫn để lộ là AI do phong cách thể hiện
Đặc biệt, infographic vẫn có thể phân biệt với đồ do con người làm
Có vẻ đây là kết quả của việc một số dataset bị đại diện quá mức
Các mô hình được huấn luyện theo giá trị trung bình sẽ tạo ra một “không gian hình ảnh trung bình”
Xem ví dụ liên quan, có thể thấy tinh chỉnh vẫn cho ra kết quả chân thực
Một số mô hình cố tình loại bỏ phong cách, khiến chúng mang cảm giác nhân tạo
Vấn đề là các mô hình mở có thể tinh chỉnh chi tiết bằng LoRA, còn mô hình đóng thì rất khó
Nếu muốn hình ảnh độc đáo, thì bản thân prompt phải sáng tạo hơn
Vì vậy tính năng chỉnh sửa ảnh được xem là bài toán tiếp theo
Các mô hình đời đầu chất lượng thấp hơn nhưng lại tạo ra kết quả thú vị hơn
SynthID là một bước khởi đầu tốt, nhưng có giới hạn là không thể phân biệt nội dung AI không có watermark
Các công ty lớn cần đưa vào các định danh được chuẩn hóa
Nếu Photoshop cũng từng bị áp các quy định như vậy, sự sáng tạo hẳn đã bị hạn chế đáng kể
Theo hướng chứng minh đó là ảnh chụp từ camera thật, rồi gắn dấu xác thực trong iMessage
Cuối cùng, các mô hình thương mại lớn có lẽ sẽ mặc định ép buộc watermark
Đây sẽ là một trò mèo vờn chuột không hồi kết
Các họa sĩ hoạt hình 2D vẫn có thể yên tâm phần nào
Tôi đã thử tạo sprite sheet, và nó chỉ lặp lại khung hình đơn giản chứ không thể tạo chuyển động trung gian tự nhiên (interpolation)
Bộ sưu tập tài liệu chính thức
Developer Blog
Trang DeepMind
Model Card PDF
Giới thiệu SynthID
Đây là mô hình tạo ảnh đầu tiên vượt qua bài test piano của tôi
Nó lặp lại chính xác mẫu các phím đen theo từng quãng tám
Các mô hình trước đây luôn thể hiện sai bố cục bàn phím
Ngay cả yêu cầu tô màu một nốt cụ thể nó cũng xử lý ngẫu nhiên
Piano là một vật thể được chuẩn hóa nên hẳn phải có rất nhiều dữ liệu huấn luyện, vậy mà mức độ hiểu vẫn chưa đủ
Việc giữ được tính nhất quán trên toàn bộ 88 phím là điều rất ấn tượng
Giờ đây mô hình đã có thể render văn bản tự nhiên bên trong hình ảnh
Tính năng từng là bất khả thi trong quá khứ nay đã bắt đầu giống như mặc định
Các thiết kế tinh vi cần canh chỉnh đường cong, khoảng cách, sự cân bằng vẫn là việc con người làm tốt hơn