Nano Banana 2 Lite
(deepmind.google)- Nano Banana 2 Lite, được bổ sung vào dòng Gemini Image của Google DeepMind, là mô hình hướng tới việc chạy tác vụ tạo và chỉnh sửa hình ảnh nhanh hơn, rẻ hơn, tập trung vào việc giảm gánh nặng chi phí cho các công việc thị giác có nhiều vòng lặp
- Trục cốt lõi là độ trễ thấp và hiệu quả chi phí ở quy mô lớn, cho phép tạo hàng nghìn hình ảnh với chi phí thấp hơn các mô hình production nặng hơn
- Về chất lượng, mô hình vẫn giữ khả năng kiểm soát và độ chính xác của dòng Nano Banana, đồng thời hỗ trợ tính nhất quán nhân vật, chỉnh sửa chính xác và khai thác kiến thức thế giới thực
- Các ví dụ như Space Lift, Gridscape, Peek-A-Word và Anywhere cho thấy trải nghiệm người dùng có thể đạt được khi tốc độ tạo ảnh đủ nhanh để không làm gián đoạn luồng ứng dụng
- Ở các trường hợp như khuôn mặt nhỏ, chính tả chính xác, mô tả chi tiết, kết quả dựa trên dữ liệu, dịch thuật và bản địa hóa, cùng các tác vụ chỉnh sửa và tổng hợp phức tạp, mô hình vẫn có thể mắc lỗi nên cần rà soát kết quả tạo ra
Mô hình Gemini Image nhấn mạnh tạo nhanh và chi phí thấp
- Nano Banana 2 Lite là mô hình Gemini Image do Google DeepMind công bố, hướng tới tạo và chỉnh sửa hình ảnh nhanh với chi phí thấp
- Nhóm người dùng chính là nhà sáng tạo, doanh nghiệp và nhà phát triển, phù hợp với các quy trình làm việc cần khám phá nhanh nhiều ý tưởng thị giác
- Google DeepMind giới thiệu đây là mô hình Gemini Image nhanh và hiệu quả nhất từ trước đến nay, cung cấp khả năng tạo và chỉnh sửa tốc độ cao với mức chi phí thấp nhất
- Các đường truy cập gồm:
- Google AI Studio
- Flash-Lite mode trong ứng dụng Gemini
- Gemini API
- Gemini Enterprise Agent Platform
Cân bằng giữa tốc độ, chi phí và chất lượng
- Giảm độ trễ là trọng tâm, hỗ trợ khám phá nhanh và các tác vụ lặp lại
- Ở quy mô tạo lớn, mô hình có thể tạo hàng nghìn hình ảnh với chi phí thấp hơn rất nhiều so với các mô hình production nặng hơn
- Về chất lượng, hướng đi là mang lại nhanh hơn khả năng kiểm soát và độ chính xác vốn được kỳ vọng từ Nano Banana
- Duy trì tính nhất quán nhân vật
- Chỉnh sửa hình ảnh chính xác
- Khai thác kiến thức thế giới thực
- Trong prompt, càng mô tả chi tiết các yếu tố mong muốn như nhân vật, bối cảnh, không khí tổng thể thì càng dễ đạt được hình ảnh gần với ý định ban đầu
- Hướng dẫn prompt có tại View prompt guide và Learn how to prompt
Ví dụ ứng dụng dựa trên giả định tốc độ tạo ảnh cao
- Space Lift là ứng dụng cho phép tải ảnh căn phòng lên và ngay lập tức tạo nhiều concept nội thất khác nhau, từ Mid-Century Modern đến Bohemian Chic
- Gridscape cho phép nhập câu hỏi trên một canvas vô hạn rồi tạo các nút thông tin bằng văn bản và hình ảnh do Nano Banana 2 Lite và Gemini 3.1 Flash Lite tạo ra
- Người dùng có thể đi theo các đường dẫn có thể nhấp để khám phá sâu hơn những khái niệm liên quan
- Peek-A-Word biến đoạn văn bản được chọn thành tư liệu trực quan do AI tạo, đồng thời cung cấp định nghĩa ngắn gọn và hình ảnh theo ngữ cảnh trong cùng một không gian
- Trọng tâm là duy trì luồng học tập mà không cần chuyển tab
- Anywhere là ứng dụng quả địa cầu 3D tương tác được tạo bằng Nano Banana 2 Lite
- Khi đính kèm hình ảnh, ứng dụng tạo một loạt bưu thiếp cá nhân hóa với các danh thắng thế giới làm nền
- Người dùng có thể xoay quả địa cầu và nhấp vào ảnh để xem thông tin về điểm đến ảo
Chỉ số so sánh và model card
- Google DeepMind giới thiệu Nano Banana 2 Lite là mô hình hiệu quả nhất từ trước đến nay, với sự cân bằng tốt giữa chất lượng và tốc độ
- Đối tượng so sánh bao gồm mẫu flagship Nano Banana 2
- Các hạng mục so sánh bao gồm các yếu tố chất lượng tạo ảnh như mức độ tuân thủ prompt, khả năng thể hiện chi tiết và khả năng kiểm soát
- Phần hiệu năng đưa ra các chỉ số sau
- Image Editing: điểm Elo chỉnh sửa ảnh so với các mô hình cạnh tranh theo lmarena.ai
- Image Generation: điểm Elo tạo ảnh so với các mô hình cạnh tranh theo lmarena.ai
- Latency per 1k resolution image: độ trễ trên mỗi ảnh độ phân giải 1k dựa trên dữ liệu của artificialanalysis.ai
- Price per 1k resolution image: giá trên mỗi ảnh độ phân giải 1k
- Model card có tại View model card
Khả năng ứng dụng theo góc nhìn của đối tác
- Figma Weave đánh giá Nano Banana 2 Lite giúp các nhà thiết kế khám phá nhiều ý tưởng hơn và tạo hình ảnh độc đáo trên canvas dựa trên node
- Manus AI đang thử nghiệm tạo ảnh thời gian thực cho slide deck và trang web trong các workflow tự động
- Họ đánh giá tốc độ phù hợp với các vòng lặp thị giác nhanh của AI agent và việc trả kết quả trong vài giây
- Chất lượng hình ảnh được xem là gần với Nano Banana 2 đầy đủ
- Artlist cho rằng khi tốc độ tạo nhanh hơn tưởng tượng, người dùng có thể ở lại trong dòng ý tưởng thay vì phải chờ công cụ
- Weekend cho biết trong trò chơi TV điều khiển bằng giọng nói Wit’s End, instant-ramen nhanh hơn Gemini 3.1 Flash Image khoảng 2.7× theo tiêu chí tạo ảnh 1k
- Hệ thống xử lý text-to-image, chỉnh sửa và tổng hợp nhiều ảnh bằng một drop-in API duy nhất
- Latitude đánh giá rằng trong engine tạo thế giới khi người chơi đang khám phá, tốc độ tạo ảnh là yếu tố quan trọng, và instant-ramen cho phép tạo hình ảnh đủ nhanh để theo kịp trải nghiệm chơi
Những giới hạn vẫn cần được xem xét
- Gemini có thể tạo nhiều loại hình ảnh khác nhau nhưng một số chức năng vẫn đang được cải thiện, vì vậy hình ảnh tạo ra cần được người dùng trực tiếp kiểm tra
- Ở độ trung thực hình ảnh và văn bản, mô hình có thể gặp khó khăn với khuôn mặt nhỏ, chính tả chính xác và mô tả chi tiết trong ảnh
- Về dữ liệu và độ chính xác thực tế, kiến thức về thế giới thực khá rộng nhưng chưa hoàn chỉnh
- Trong tạo infographic, chú thích sơ đồ và biểu diễn dữ liệu phức tạp, mô hình có thể diễn giải sai thông tin hoặc tạo ra kết quả không đúng sự thật
- Các đầu ra dựa trên dữ liệu cần được xác minh
- Với dịch thuật và bản địa hóa, mô hình có thể tạo và dịch văn bản đa ngôn ngữ nhưng vẫn có thể gặp khó khăn về ngữ pháp, chính tả, sắc thái văn hóa và thành ngữ
- Ở các tác vụ chỉnh sửa phức tạp và hòa trộn ảnh, như chỉnh sửa bằng mask, thay đổi ánh sáng lớn như biến ban ngày thành ban đêm, hay ghép nhiều ảnh, kết quả có thể thiếu tự nhiên, xuất hiện artifact thị giác hoặc các cảnh bị đứt đoạn
- Tính nhất quán nhân vật là một điểm mạnh nhưng không phải lúc nào cũng chính xác, và Google DeepMind đang tiếp tục cải thiện để làm nó ổn định hơn
Tính năng an toàn và lưu ý khi sử dụng
- Google DeepMind sử dụng lọc dữ liệu quy mô lớn và gắn nhãn dữ liệu nhằm giảm nội dung độc hại trong tập dữ liệu và hạ thấp khả năng tạo ra đầu ra có hại
- Về an toàn nội dung, công ty tiến hành red team và đánh giá, bao gồm cả an toàn trẻ em và cách thể hiện
- Các ảnh được tạo ra tích hợp những tính năng bảo mật và an toàn mới nhất, đồng thời SynthID chèn trực tiếp watermark số vô hình vào ảnh để nhận diện ảnh do AI tạo
- Thông tin về SynthID có tại Learn more
- Các LLM như Gemini 3.1 Flash-Lite Image có thể tạo ra nội dung không chính xác hoặc gây khó chịu, không đại diện cho quan điểm của Google
- Cần thận trọng khi tin tưởng, đăng tải hoặc sử dụng nội dung do LLM cung cấp, và không nên dựa vào nó cho các lời khuyên chuyên môn như y tế, pháp lý hay tài chính
1 bình luận
Ý kiến trên Hacker News
Ví dụ đầu tiên về tạo nội thất nhà khiến tôi ghét đến mức khó diễn tả. Dạo này các môi giới bất động sản cứ cho toàn bộ những căn hộ cũ kỹ, khó bán chạy qua bộ lọc AI, nên trước khi thấy họ thực sự đang cố bán thứ kinh khủng nào với mức giá phi lý, tôi phải lướt qua hàng chục ảnh kiểu “nếu trang trí theo phong cách IKEA thì có thể trông như thế này”
Phòng ngủ thực tế chỉ vừa đủ đặt một chiếc giường queen ;(
Nó đặc biệt hữu ích khi khó tự hình dung toàn bộ không gian sẽ trông thế nào nếu ốp gạch ở một số phần nhất định
Trước đây chỉ là chi phí thuê người làm việc đó đắt hơn
Ảnh đã chỉnh lúc nào cũng cho thấy những bức tường sáng màu và đồ nội thất màu xám kiểu tạp chí giống hệt nhau
AI chỉ làm nó rẻ hơn, cuối cùng thì mọi chuyện cũng tất yếu thành ra như vậy
Những ảnh được chỉnh kiểu này thường có một watermark nhỏ cho biết ảnh đã được chỉnh
Đây là vấn đề đã có từ trước khi bộ lọc AI xuất hiện nên không mới, nhưng giờ nó nghiêm trọng hơn nhiều và chi phí cũng thấp hơn
Tôi đã nhận được quyền truy cập sớm để thử mô hình này. Là thông qua công việc, chứ vẫn không phải vì Google tự nhiên thích cá nhân tôi lol
Nó hoạt động đúng như được quảng cáo ở đây, và ở những yếu tố như render văn bản tốt, nó trông giống một phiên bản chưng cất từ Nano Banana 2. Nano Banana 1 yếu hơn nhiều ở điểm này
Tất nhiên với các prompt chi tiết thì hoàn toàn không đạt mức của Nano Banana 2 gốc. Phàn nàn lớn nhất là với NB2 có thể ép tỷ lệ khung hình bằng lập trình, còn NB2L thì không
Tuy vậy mức giá $0.034 mỗi ảnh cao hơn tôi dự đoán. Thông thường giá liên quan đến thời gian tạo, nhưng nó tạo nhanh bằng một nửa thời gian so với Nano Banana 1, trong khi Nano Banana 1 là $0.039 mỗi ảnh
Tuyên bố của Google rằng có thể thay thế trực tiếp pipeline NB1 bằng NB2L là hợp lý
Hôm qua Google công bố cho phép tạo ảnh miễn phí trong ứng dụng Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), nhưng không nêu rõ dùng mô hình nào. Tôi cho rằng động lực chính của Nano Banana 2 Lite nằm ở đây
gemini-3.1-flash-lite-image, và đã dùng được các tỷ lệ như 16:9, 4:3[1] - https://cloud.google.com/developers/vertex-ai
Cũng ổn, nhưng nó nằm trên cái AI Studio hỏng hóc của Google. Một nửa tính năng ở đó cần tài khoản Google One nên tôi không dùng được
Tôi dùng tài khoản Workspace nên không đủ điều kiện, và cũng không thể chuyển sang. Vì Google One không hỗ trợ tên miền riêng
Vậy để dùng cả địa chỉ email đẹp lẫn Banana thì tôi phải vận hành hai tài khoản và còn trả tiền nữa sao? Tôi bắt đầu nghĩ rằng số tài khoản Google trả phí đúng đắn ở đây là 0
Giải pháp của tôi là OpenRouter. Trong chat phục vụ phát triển và thử nghiệm, tôi có thể tạo ảnh bằng các mô hình Google, và cũng có thể chạy cùng một prompt song song với các mô hình khác. Rất tiện cho việc tạo ảnh nhẹ nhàng
Nhìn chung tôi mặc định dùng tài khoản cá nhân vì có nhiều ngữ cảnh hơn, nhưng như vậy lại cần thêm vài bước để lấy tài liệu từ Workspace Drive
Và những thứ như Project Genie thì hoàn toàn không dùng được trong Workspace, điều này khá kỳ lạ
https://www.burlap.app/download
Tốc độ chắc chắn rất ấn tượng. NB2 gốc mất khoảng 30 giây mỗi ảnh, còn cái này có vẻ dưới 5 giây
Tôi đã làm một ứng dụng tạo truyện có minh họa, trong đó đưa trẻ em vào làm nhân vật. Tôi muốn vừa giữ phong cách minh họa, vừa ưu tiên sự giống với các em
Tôi đã thử nhiều mô hình, nhưng dường như chưa mô hình nào tiến gần được đến mức này trong việc giữ nét giống khi đã stylize. Các mô hình khác biến chúng thành những nhân vật chung chung
Tôi rất mong đưa mô hình này vào onboarding của ứng dụng để người dùng có được khoảnh khắc “à ha” nhanh nhất có thể. Chờ hơn 30 giây thì không lý tưởng
Tuy nhiên với minh họa thực tế, tôi vẫn sẽ dùng NB2 gốc. Như những người khác đã nói, bản Lite này vẫn còn hơi có vấn đề về sắc thái và tính nhất quán
Không đưa ChatGPT vào biểu đồ so sánh. Chỉ riêng điều đó đã nói lên rất nhiều
Nhưng độ trễ là vấn đề, và thiết lập High của ChatGPT Image 2 khá chậm, khoảng 2 phút ở 1024x1024
Dù thế nào, nếu đưa nó vào biểu đồ này thì biểu đồ sẽ bị bóp méo đến mức vô dụng
Tôi muốn viết một bài về ChatGPT Image 2, nhưng có vẻ giờ mọi người không còn quan tâm đến việc tạo ảnh chi tiết nữa. Dù trong các bài kiểm thử trước đây, ChatGPT Image 2 áp đảo tất cả
Hơi ngạc nhiên là mô hình hình ảnh của Grok thắng Nano Banana ở gần như mọi chỉ số được nhấn mạnh ở đây
Thứ hai, ngay từ đầu đây là mô hình tạo hàng loạt chi phí thấp chứ không phải mô hình frontier tối tân, nên benchmark thấp là điều đương nhiên
Tôi thích Nano Banana Pro. Hiện vẫn có phương án chạy local nào không? Tôi có nghe nói về Qwen Image, Klein, gần đây là Krea, nên muốn biết có cái nào đáng khuyên dùng không
Xem GenAI Showdown trong hồ sơ của tôi sẽ có benchmark so sánh với các mô hình local và độc quyền
Thực ra nó đạt điểm cao hơn Gemini 2.5, tức NB gốc, khá ấn tượng
Tôi đã tụt lại khá xa ở mảng tạo ảnh, nên thỉnh thoảng chỉ dùng để tạo token nhập vai, đồ nghịch, hoặc tài sản tạm thời cho cá nhân. Theo tiêu chuẩn của tôi thì cái này đúng là điên rồ
Có thể tạo ảnh trong khoảng 2 giây. Trước đây để tạo ảnh cùng chất lượng bằng ChatGPT phải mất 30 giây đến 1 phút
Tôi không hiểu phản ứng tiêu cực ở đây
Và khá nhiều phản ứng tiêu cực đến từ những người vốn ghét khái niệm AI art và mong nó thất bại
Những người làm công việc mà bản thân hình ảnh là trọng tâm sẽ muốn chi nhiều tiền hơn cho mỗi ảnh
Ngược lại, nếu hình ảnh chỉ là một phần của báo cáo, là kết quả dùng rồi bỏ, hoặc đưa vào demo, thì cách tiếp cận rẻ hơn sẽ tốt hơn
Tôi tò mò làm sao để có được thứ như prototype thời gian thực trong phần “hands on” của trang này
Trên gemini.g có thể thêm canvas hoặc dùng tạo ảnh, nhưng tôi không rõ phải nhập prompt “space lift” vào đâu để ra được như demo
Wow, độ trễ đã giảm cực mạnh. Mức này chắc sẽ mở ra vài trường hợp sử dụng mới, nhưng trang web được liên kết không giải thích khác biệt giữa các mô hình theo cách dễ hiểu
Tuy nhiên, theo trải nghiệm cá nhân khi dùng các mô hình ảnh phổ thông, tôi thấy Google là tốt nhất trong quy trình làm việc của mình. Tất nhiên tôi vẫn chưa thử các nhà cung cấp ở vùng Viễn Đông
Tôi tò mò không biết người khác nghĩ thế nào