11 điểm bởi GN⁺ 2025-11-21 | 1 bình luận | Chia sẻ qua WhatsApp
  • Nano Banana Promô hình tạo và chỉnh sửa ảnh mới nhất của Google DeepMind dựa trên Gemini 3 Pro, cung cấp khả năng hiện thực hóa chính xác các ý tưởng thị giác
  • Nhờ cải thiện khả năng dựng văn bảnhỗ trợ đa ngôn ngữ, có thể chèn trực tiếp các câu chữ dễ đọc vào hình ảnh như poster, mockup, infographic
  • Hỗ trợ tạo nội dung thị giác chất lượng cao với các tính năng như kết hợp tối đa 14 ảnh, duy trì tính nhất quán của 5 nhân vật, hỗ trợ độ phân giải 2K~4K
  • Được tích hợp vào nhiều sản phẩm của Google như Google Ads, Workspace, ứng dụng Gemini, AI Studio, phù hợp cho người dùng phổ thông, chuyên gia và nhà phát triển
  • Đảm bảo tính minh bạch của ảnh do AI tạo bằng watermark SynthID, đồng thời cung cấp trực tiếp tính năng nhận diện nội dung AI trong ứng dụng Gemini

Tổng quan về Nano Banana Pro

  • Nano Banana Pro là mô hình dùng năng lực suy luận và tri thức thế giới của Gemini 3 Pro để trực quan hóa thông tin thị giác một cách tinh vi
    • Đây là phiên bản nâng cấp ra mắt sau Nano Banana (Gemini 2.5 Flash Image)
    • Hỗ trợ nhiều tác vụ thiết kế như lên ý tưởng, trực quan hóa dữ liệu, biến ghi chú viết tay thành sơ đồ

Tính năng chính

  • Tạo tư liệu thị giác chính xác và giàu ngữ cảnh
    • Thông qua năng lực suy luận nâng cao của Gemini 3, có thể tạo nội dung dựa trên sự thật như infographic giáo dục, sơ đồ
    • Kết nối với thông tin thời gian thực từ Google Search để trực quan hóa dữ liệu theo thời gian thực như thời tiết, thể thao, công thức nấu ăn
  • Dựng văn bản đa ngôn ngữ
    • Thể hiện văn bản trong ảnh chính xác và dễ đọc, đồng thời có thể dịch và bản địa hóa sang nhiều ngôn ngữ
    • Phù hợp để tạo poster hoặc nội dung thương hiệu với nhiều phông chữ, chất liệu, phong cách kiểu chữ khác nhau
    Quảng cáo
  • Biểu đạt hình ảnh chất lượng cao
    • Tạo ảnh tổng hợp phức tạp với khả năng kết hợp tối đa 14 ảnhduy trì tính nhất quán của 5 nhân vật
    • Cung cấp khả năng kiểm soát chỉnh sửa chi tiết như chỉnh sửa cục bộ, điều chỉnh góc máy, hiệu chỉnh màu sắc, chuyển đổi ánh sáng
    • Hỗ trợ độ phân giải 2K và 4K cùng nhiều tỷ lệ khung hình, đáp ứng cả in ấn lẫn nền tảng số

Môi trường sử dụng

  • Dành cho người dùng phổ thông và học sinh, sinh viên
    • Có thể dùng Nano Banana Pro trong tính năng ‘Create images’ của ứng dụng Gemini
    • Người dùng miễn phí được cung cấp số lượt tạo giới hạn, sau đó sẽ chuyển sang Nano Banana cơ bản
    • Người đăng ký Google AI Plus, Pro, Ultra có hạn mức tạo cao hơn
  • Dành cho chuyên gia
    • Tính năng tạo ảnh của Google Ads đã được nâng cấp lên Nano Banana Pro
    • Cũng có thể sử dụng trong SlidesVids của Google Workspace
  • Dành cho nhà phát triển và doanh nghiệp
    • Mở rộng hỗ trợ trên Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise
  • Dành cho nhà sáng tạo
    • Thông qua công cụ Flow, nhà làm video và marketer có thể kiểm soát chi tiết theo từng cảnh
    Quảng cáo

Nhận diện ảnh do AI tạo và tính minh bạch

  • Tất cả ảnh được tạo bằng Nano Banana Pro đều được chèn watermark số SynthID để có thể xác định nguồn gốc
    • Có thể tải ảnh lên ứng dụng Gemini để trực tiếp kiểm tra “có phải do Google AI tạo hay không”
    • Ảnh của người dùng miễn phí và Pro sẽ được thêm watermark hiển thị (Gemini sparkle)
    • Người đăng ký Ultra và công cụ dành cho nhà phát triển của AI Studio sẽ được cung cấp canvas sạch không có watermark
  • SynthID dự kiến sẽ được mở rộng sang nội dung âm thanh và video trong tương lai

Tài liệu liên quan

  • Build with Nano Banana Pro: giới thiệu mô hình Gemini 3 Pro Image dành cho nhà phát triển
  • Prompting Tips for Nano Banana Pro: hướng dẫn viết prompt hiệu quả
  • AI Image Verification in Gemini App: giải thích tính năng xác minh hình ảnh dựa trên SynthID

Không có thêm thông tin trong bài gốc

1 bình luận

 
GN⁺ 2025-11-21
Ý kiến trên Hacker News
  • Tuần này Google tạo cảm giác như đang di chuyển như Godzilla
    Tôi lần đầu thử liên kết thẻ với AI Studio, nhưng quy trình thanh toán quá rắc rối
    Dù đã hoàn tất mọi thiết lập, lỗi “permission denied” vẫn tiếp tục xuất hiện
    Nếu phải vất vả đến mức này chỉ để trả tiền, thì mô hình có tốt đến đâu cũng không còn ý nghĩa

    • Xin lỗi vì trải nghiệm bất tiện này
      Đội ngũ đang nỗ lực cải thiện để tăng khả năng tiếp cận
      Chúng tôi đang chuẩn bị hệ thống thanh toán tích hợp trong AI Studio để giảm ma sát liên quan đến thanh toán, và dự kiến phát hành toàn cầu vào tháng 1
    • API của Google nhìn chung có rào cản gia nhập quá cao
      Dịch vụ khác chỉ cần một API key là xong, còn Google thì phải tạo tài khoản → tạo ứng dụng → bật dịch vụ → tạo ứng dụng OAuth → tải JSON xuống
    • Nếu chỉ đơn giản muốn dùng API, tôi khuyên dùng Nano-Banana-Pro của Fal.ai
      Quy trình đăng ký đơn giản hơn nhiều và cung cấp đa dạng mô hình AI
    • Tôi cũng đang dùng gói trả phí của ClaudeOpenAI, nhưng Gemini khó thanh toán đến mức gần như không thể thử nổi
      Việc phải tạo một dự án GCP chỉ để test đơn giản là quá mức cần thiết
    • Mức độ bất tiện lớn đến mức chỉ cần làm một frontend cho nhà phát triển tốt hơn cho các sản phẩm AI của Google thôi cũng đã là một cơ hội kinh doanh
  • Tôi đã test lại tất cả prompt liên quan đến chỉnh sửa bằng Nano Banana Pro
    Nó đã vượt qua các bài test SHRDLU, M&M Van Halen, Scorpio Street
    Có thể xem kết quả tại đây
    NB Pro cho thấy hiệu năng được cải thiện rõ rệt so với NB gốc

    • Ở bài test chỉnh sửa hươu cao cổ, kết quả của NB Pro trông tốt hơn Seedream, nhưng phần đánh giá lại để ngược lại
      Có vẻ như bản thân bài test đó chưa phù hợp
    • NB Pro lẽ ra phải vượt qua bài test hươu cao cổ
      Kết quả không hoàn hảo, nhưng nó đã làm đúng theo yêu cầu
    • Bài test tháp nghiêng Pisa khá thú vị
      Nó vượt qua các prompt đòi hỏi kiến thức rõ ràng, nhưng việc đơn giản là dựng thẳng một vật đang nghiêng thì vẫn còn khó
    • Nếu luôn hiển thị cả ảnh gốc trong từng bài test thì sẽ dễ so sánh hơn
      Hiển thị đồng thời ảnh gốc-kết quả có vẻ trực quan hơn dùng slider
    • Trang này thực sự hữu ích. Tôi tò mò không biết có kế hoạch làm benchmark text-to-image với NB Pro hay không
  • Tôi đã thực hiện phân tích prompt engineering cho Nano Banana trong vài tháng, thì Google lại tung ra phiên bản mới
    Mô hình mới hoạt động ngay trong gói gemimg
    Tuy nhiên giá khá đắt nên khó đặt làm mô hình mặc định
    Theo tài liệu, mô hình tạo tối đa hai ảnh trung gian (giai đoạn Thinking)
    Đây có thể là nguyên nhân làm tăng chi phí

    • Ví dụ prompt “mắt trái là dâu tây, mắt phải là mâm xôi đen” khá thú vị
      Mô hình nhận biết trái-phải theo góc nhìn của người quan sát nên đặt sai vị trí
      Những lỗi chỉ dẫn tương đối kiểu này cũng là vấn đề phổ biến trong môi trường y tế
      Liên kết ví dụ liên quan
    • Hướng dẫn Nano Banana của Max vẫn còn hữu ích
      Phần lớn prompt vẫn hoạt động tốt trên NB Pro
      Liên kết hướng dẫn
      Tôi cũng chia sẻ kết quả thử nghiệm của mình
    • Chi phí cho mỗi ảnh đầu vào là $0.0011, không phải $0.06
    • Tôi đã phát hành gemimg phiên bản 0.3.2, và phần lớn lỗi ảnh trên NB Pro đã được sửa
      “Chuyển đổi theo phong cách Studio Ghibli” chính xác hơn ChatGPT rất nhiều
      Tuy vậy, các hình ảnh quá chân thực đôi khi lại rơi vào thung lũng kỳ lạ
    • Wrapper gemimg vẫn rất hữu ích
      Tôi lại một lần nữa cảm nhận được tầm quan trọng của thiết kế công cụ có khả năng thích ứng để theo kịp thay đổi công nghệ
  • Khả năng tạo toàn bộ infographic chỉ với prompt ngắn thật đáng kinh ngạc
    Tôi yêu cầu “cách dự án Datasette hoạt động” và nhận được kết quả hoàn thiện rất tốt
    Liên kết kết quả

    • Tính năng này có thể thay đổi mang tính cách mạng chức năng tạo tờ rơi sự kiện trong SaaS
      Hiện tại chúng tôi vẫn render văn bản riêng, nhưng giờ có vẻ đã có thể xử lý một lần là xong
    • Nó đã thất bại khi tìm nốt Đô trung tâm trên bàn phím piano
      Tham khảo ảnh kết quả
    • Ngay cả với dự án gần như không có nhiều thông tin (player.html), nó vẫn tạo infographic tốt
      Liên kết GitHub
      Nó còn tự động chuyển sang định dạng vuông cho Instagram
    • Tôi tò mò không biết infographic về Datasette có khớp với cách nó thực sự hoạt động hay không
  • Ảnh AI không còn tạo ra artifact quá lộ liễu nữa, nhưng vẫn để lộ là AI do phong cách thể hiện
    Đặc biệt, infographic vẫn có thể phân biệt với đồ do con người làm
    Có vẻ đây là kết quả của việc một số dataset bị đại diện quá mức

    • Con người rất nhạy với những khác biệt thị giác tinh vi
      Các mô hình được huấn luyện theo giá trị trung bình sẽ tạo ra một “không gian hình ảnh trung bình”
      Xem ví dụ liên quan, có thể thấy tinh chỉnh vẫn cho ra kết quả chân thực
    • Đây không chỉ đơn thuần là vấn đề dữ liệu
      Một số mô hình cố tình loại bỏ phong cách, khiến chúng mang cảm giác nhân tạo
      Vấn đề là các mô hình mở có thể tinh chỉnh chi tiết bằng LoRA, còn mô hình đóng thì rất khó
    • Phần lớn mô hình học từ dữ liệu của toàn bộ web nên cho ra kết quả trung bình có thể dự đoán được
      Nếu muốn hình ảnh độc đáo, thì bản thân prompt phải sáng tạo hơn
    • Vẫn còn những lỗi tinh vi ở texture, tỷ lệ, ánh sáng...
      Vì vậy tính năng chỉnh sửa ảnh được xem là bài toán tiếp theo
    • Các mô hình được tinh chỉnh bằng phản hồi của con người học theo “gu trung bình”, làm mất đi cá tính
      Các mô hình đời đầu chất lượng thấp hơn nhưng lại tạo ra kết quả thú vị hơn
  • SynthID là một bước khởi đầu tốt, nhưng có giới hạn là không thể phân biệt nội dung AI không có watermark
    Các công ty lớn cần đưa vào các định danh được chuẩn hóa

    • Tôi cho rằng việc chính phủ bắt buộc watermark là nguy hiểm
      Nếu Photoshop cũng từng bị áp các quy định như vậy, sự sáng tạo hẳn đã bị hạn chế đáng kể
    • Có vẻ một lúc nào đó Apple sẽ tung ra tính năng kiểu Real Photos
      Theo hướng chứng minh đó là ảnh chụp từ camera thật, rồi gắn dấu xác thực trong iMessage
    • Lý do các công ty áp dụng watermark là để quản lý việc tái huấn luyện dữ liệu
      Cuối cùng, các mô hình thương mại lớn có lẽ sẽ mặc định ép buộc watermark
    • Nếu có định danh chuẩn, rồi cũng sẽ xuất hiện phần mềm gỡ bỏ nó
      Đây sẽ là một trò mèo vờn chuột không hồi kết
    • dự án C2PA đang tồn tại để giải quyết vấn đề này
  • Các họa sĩ hoạt hình 2D vẫn có thể yên tâm phần nào
    Tôi đã thử tạo sprite sheet, và nó chỉ lặp lại khung hình đơn giản chứ không thể tạo chuyển động trung gian tự nhiên (interpolation)

  • Bộ sưu tập tài liệu chính thức
    Developer Blog
    Trang DeepMind
    Model Card PDF
    Giới thiệu SynthID

  • Đây là mô hình tạo ảnh đầu tiên vượt qua bài test piano của tôi
    Nó lặp lại chính xác mẫu các phím đen theo từng quãng tám
    Các mô hình trước đây luôn thể hiện sai bố cục bàn phím

    • Tuy vậy, nếu ra ngoài chuẩn 88 phím thì lỗi vẫn còn nhiều
      Ngay cả yêu cầu tô màu một nốt cụ thể nó cũng xử lý ngẫu nhiên
      Piano là một vật thể được chuẩn hóa nên hẳn phải có rất nhiều dữ liệu huấn luyện, vậy mà mức độ hiểu vẫn chưa đủ
    • Duy trì một mẫu lặp trong thời gian dài là việc khó
      Việc giữ được tính nhất quán trên toàn bộ 88 phím là điều rất ấn tượng
  • Giờ đây mô hình đã có thể render văn bản tự nhiên bên trong hình ảnh
    Tính năng từng là bất khả thi trong quá khứ nay đã bắt đầu giống như mặc định

    • Tôi cũng đồng ý. Nhưng những vùng giao nhau giữa thị giác và mã như tạo icon vẫn còn yếu
      Các thiết kế tinh vi cần canh chỉnh đường cong, khoảng cách, sự cân bằng vẫn là việc con người làm tốt hơn