- Kết hợp các tính năng nâng cao của Nano Banana Pro với tốc độ của Gemini Flash, cho phép tạo ảnh và lặp chỉnh sửa tốc độ cao
- Cung cấp các tính năng cấp độ Pro với tốc độ nhanh như kết xuất dựa trên tri thức thế giới, biểu đạt và dịch văn bản chính xác, duy trì tính nhất quán của chủ thể, hỗ trợ độ phân giải 4K
- Được áp dụng trên toàn bộ các ứng dụng của Google: ứng dụng Gemini, Search, AI Studio và Gemini API, Flow, Google Ads, v.v.
- Kết hợp SynthID và C2PA Content Credentials để tăng cường khả năng nhận diện và xác minh nguồn gốc của nội dung do AI tạo ra
- Google đang phát triển theo hướng vừa nâng cao độ tin cậy vừa tăng tính hữu dụng của media tạo sinh thông qua Nano Banana 2
Tổng quan về Nano Banana 2
- Nano Banana 2 (Gemini 3.1 Flash Image) do Google DeepMind công bố là mô hình kết hợp các tính năng nâng cao của Nano Banana Pro hiện có với tốc độ của Gemini Flash
- Mô hình trước đó là Nano Banana đã thu hút nhiều chú ý khi định nghĩa lại cách tạo và chỉnh sửa hình ảnh, còn Nano Banana Pro cung cấp khả năng kiểm soát ở cấp độ studio
- Phiên bản lần này tích hợp ưu điểm của cả hai mô hình để đồng thời hiện thực hóa tạo ảnh chất lượng cao và tốc độ xử lý nhanh
- Nano Banana 2 có các đặc điểm như tri thức thế giới nâng cao, kết xuất văn bản chính xác, tính nhất quán của chủ thể, hỗ trợ thông số kỹ thuật cho môi trường production
Trí tuệ và chất lượng hình ảnh ở tốc độ Flash
- Nano Banana 2 áp dụng trí tuệ tốc độ cao của Gemini Flash vào tạo sinh thị giác để hỗ trợ chỉnh sửa nhanh và các tác vụ lặp
- Tri thức thế giới nâng cao: Dựa trên thông tin thời gian thực của Gemini và dữ liệu từ hình ảnh trên web để biểu đạt chính xác hơn các chủ đề cụ thể
- Nhờ đó có thể tạo infographic, sơ đồ, trực quan hóa dữ liệu
- Thông qua tính năng kết xuất và dịch văn bản chính xác, có thể tạo văn bản sắc nét khi làm mockup marketing hoặc thiết kế thiệp, đồng thời dịch và bản địa hóa văn bản trong ảnh
Khả năng kiểm soát sáng tạo được nâng cao
- Nano Banana 2 thu hẹp khoảng cách giữa tốc độ và độ trung thực thị giác để nhanh chóng tạo ra hình ảnh chất lượng cao, chân thực
- Tính nhất quán của chủ thể: Duy trì nhất quán tối đa 5 nhân vật và 14 đối tượng trong cùng một workflow
- Thực thi chỉ dẫn chính xác: Phản ánh trung thực các sắc thái chi tiết của những yêu cầu phức tạp
- Thông số cho production: Hỗ trợ độ phân giải từ 512px đến 4K và nhiều tỷ lệ khác nhau, phù hợp từ bài đăng mạng xã hội đến nền ảnh widescreen
- Nâng cấp độ trung thực thị giác: Cung cấp kết cấu, ánh sáng và chi tiết phong phú hơn
Tích hợp sản phẩm và khả năng tiếp cận
- Nano Banana 2 đang được triển khai dần trên toàn bộ hệ sinh thái Google
- Ứng dụng Gemini: Nano Banana 2 được tích hợp mặc định trong các mô hình Fast, Thinking và Pro; người đăng ký Pro và Ultra vẫn có thể tiếp tục dùng mô hình Pro
- Search: Có thể sử dụng trên di động và desktop thông qua AI Mode và Lens, đồng thời hỗ trợ thêm 141 quốc gia và 8 ngôn ngữ
- AI Studio và Gemini API: Được cung cấp ở bản preview, cũng có thể dùng trên Vertex AI
- Flow: Được đặt làm mô hình tạo ảnh mặc định miễn phí cho mọi người dùng
- Google Ads: Được áp dụng vào tính năng gợi ý hình ảnh khi tạo chiến dịch quảng cáo
Tăng cường xác minh nguồn gốc và độ tin cậy
- Google kết hợp SynthID và C2PA Content Credentials để nâng cao độ tin cậy của media tạo sinh
- Với sự kết hợp này, hệ thống không chỉ cho biết AI có được sử dụng hay không mà còn cung cấp thông tin ngữ cảnh về cách AI đã được sử dụng
- Tính năng xác minh SynthID đã được sử dụng hơn 20 triệu lần kể từ khi ra mắt, phục vụ cho việc nhận diện hình ảnh, video và âm thanh do AI tạo ra
- Tính năng xác minh C2PA cũng sẽ sớm được bổ sung vào ứng dụng Gemini
Tóm tắt
- Nano Banana 2 là mô hình tạo ảnh mới nhất của Google, hội tụ đủ tốc độ, độ chính xác và chất lượng
- Được tích hợp trên toàn bộ hệ sinh thái Gemini, mang lại khả năng ứng dụng tức thì cho nhà phát triển, nhà thiết kế và marketer
- Đây là ví dụ cho bước tiến chiến lược của Google khi đồng thời theo đuổi tính minh bạch của nội dung AI và nâng cao năng suất sáng tạo
1 bình luận
Ý kiến Hacker News
Thử đưa ra vài dự đoán về tác động mà công cụ tạo ảnh AI sẽ gây ra cho nghệ thuật
Khi công nghệ phát triển, ngay cả “gu thẩm mỹ” cũng có thể được giải quyết bằng kỹ thuật. Hiện giờ người ta nói AI “không ngầu”, nhưng đó chỉ là vấn đề của giai đoạn phát triển mà thôi
Như ví dụ của SpaceX, lấy những mục tiêu chưa đạt được để hạ thấp toàn bộ lĩnh vực là một kiểu phê phán sai lầm
Thay vào đó, tôi nghĩ “thiết kế phát sinh (emergent design)” sẽ là xu hướng tiếp theo. Ví dụ, Czinger cho thấy cách tiếp cận tìm ra hình thái thông qua tối ưu hóa xác suất
Ví dụ, dù Sora có tạo ra video bóng đá hoàn hảo đi nữa thì người hâm mộ vẫn sẽ xem trận đấu thật. Lý do chúng ta thưởng thức nghệ thuật là vì sự kết nối cảm xúc do con người tạo ra
Vì vậy tôi muốn hỏi những người nói “AI art thật ngầu” — “Vậy rốt cuộc nghệ thuật là để làm gì?”
Tôi đã thấy rất nhiều tác phẩm ấn tượng do nghệ sĩ thật tạo ra bằng AI, và rất mong chờ xem sẽ còn những thử nghiệm sáng tạo nào xuất hiện với công cụ này
Tôi đang xây nhà, và mô hình ảnh của Nano Banana đã hoàn toàn thay đổi cuộc chơi trong quá trình thiết kế
Tôi chạy hàng trăm lượt render để tìm ra thiết kế ưng ý, rồi phản ánh nó vào bản thiết kế của nhà thiết kế nội thất
CAD khó thể hiện các đường cong hay yếu tố trang trí, nhưng Nano Banana làm rất tốt thiết kế hữu cơ
Kết quả là ngôi nhà đang hoàn thiện đẹp hơn rất nhiều
Có thể xem ví dụ liên quan ở blog này
Trừ một vài ý tưởng độc đáo mà nhà thiết kế đề xuất, còn lại phần lớn Gemini làm tốt hơn
Việc có thể đổi màu sắc, đồ nội thất và bố trí chỉ trong vài giây vẫn rất đáng kinh ngạc
Dạo này ảnh AI quá chân thực nên nhiều người bình thường thường nhầm là ảnh thật
Ví dụ như ảnh đồ ăn trên Facebook hay ảnh người mẫu giả.
Khả năng biểu đạt đã tốt hơn, nhưng đồng thời cũng tạo cảm giác đáng ngại
Có những trường hợp rất rõ ràng, nhưng phần lớn là không thể phân biệt
Giờ đây ai cũng có thể tạo ảnh giả, nên mọi người sẽ tự nhiên học cách kiểm chứng nguồn và đánh giá độ tin cậy
Về dài hạn, hình ảnh sẽ bị hàng hóa hóa và mất giá trị cảm xúc
Ngày xưa một tấm ảnh là thứ quý giá, còn giờ nó chỉ là một trong hàng nghìn tấm.
AI art cũng vậy, khi quá nhiều thì cảm xúc rung động sẽ giảm đi
Tôi chụp ảnh cưới, và trong 2 năm gần đây số yêu cầu chụp film đã tăng vọt.
Sự phổ biến của đĩa vinyl hay máy ảnh số đời cũ cũng nằm trong cùng một mạch đó
Trong các ví dụ của model mới, cách thể hiện “lập thể (cubism)” hơi đáng thất vọng
Cốt lõi của trường phái lập thể là đưa nhiều góc nhìn, thời gian và phong cách vào cùng một khung hình,
nhưng AI chỉ đang bắt chước việc chia tách hình học mà thôi. Vẫn có cảm giác nó chỉ mô phỏng “hình thức” chứ không phải “ý nghĩa”
Trước đây nó tạo ra các tòa nhà ngẫu nhiên, còn giờ thì đã tra cứu tư liệu thực để tham khảo
Có thể xem ví dụ chi tiết tại trang DeepMind Gemini Image Flash
Nếu ngày xưa đã có AI như thế này, có lẽ những tác phẩm như Mona Lisa hay trần nhà nguyện Sistine đã không tồn tại
Vì chỉ cần prompt là có thể làm rẻ hơn nhiều
AI là công cụ sẽ nâng giới hạn đó lên cao hơn
Công nghệ càng phát triển thì “độ khan hiếm” càng biến mất, và giá trị thật sẽ tập trung vào hệ thống kiểm soát
Các bậc thầy ngày xưa được ghi nhớ nhờ có người bảo trợ, còn người sáng tạo ngày nay lại bị chôn vùi vì mưu sinh
Như Terence McKenna từng nói, tương lai sẽ ngày càng đi theo hướng kỳ quái và mâu thuẫn
Có thể tham khảo video liên quan ở liên kết này
Ví dụ, “bức tranh Jesus cắm cờ trên Mặt Trăng” thì được, nhưng “bức tranh jacquesm cắm cờ trên Mặt Trăng” thì thành ra lộn xộn
Tôi đã thử kết quả của
gemini-3.1-flash-image-preview(NB 2) trong GenAI ShowdownMức cải thiện từ NB → NB Pro là lớn, nhưng từ NB Pro → NB Pro 2 thì không có cải thiện đáng kể
Đặc biệt, chất lượng chỉnh sửa cục bộ (localization) còn kém đi
Xem so sánh chi tiết tại liên kết này
Tôi đã dùng thử NB Pro 2 một lúc, và nó gần với cải tiến tiệm tiến hơn là bước nhảy vọt về chức năng
Dù vậy, việc nó vượt qua được “King Louie jump rope test” vẫn rất ấn tượng
Có thể xem kết quả test ở trang này
Với việc chỉnh sửa ảnh cá nhân, hạn chế phát hiện người nổi tiếng vẫn quá gắt
Gần như mọi nhân vật đều bị nhận là “giống người nổi tiếng” nên không thể chỉnh sửa
Ở góc độ kỹ thuật thì đây là công nghệ rất ấn tượng, nhưng tôi nghi ngờ liệu có cơ sở sử dụng chính đáng về mặt kinh doanh hay không
Có vẻ phần lớn chỉ dùng vì “không muốn trả tiền cho nghệ sĩ”
Khi các tập đoàn lớn phát tán nội dung ở quy mô lớn, tác động tiêu cực thậm chí có thể còn lớn hơn
Hiệu quả như vậy hoàn toàn có thể áp dụng cho cả doanh nghiệp nhỏ