1 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Nano Banana 2 Lite, được bổ sung vào dòng Gemini Image của Google DeepMind, là mô hình hướng tới việc chạy tác vụ tạo và chỉnh sửa hình ảnh nhanh hơn, rẻ hơn, tập trung vào việc giảm gánh nặng chi phí cho các công việc thị giác có nhiều vòng lặp
  • Trục cốt lõi là độ trễ thấp và hiệu quả chi phí ở quy mô lớn, cho phép tạo hàng nghìn hình ảnh với chi phí thấp hơn các mô hình production nặng hơn
  • Về chất lượng, mô hình vẫn giữ khả năng kiểm soát và độ chính xác của dòng Nano Banana, đồng thời hỗ trợ tính nhất quán nhân vật, chỉnh sửa chính xác và khai thác kiến thức thế giới thực
  • Các ví dụ như Space Lift, Gridscape, Peek-A-Word và Anywhere cho thấy trải nghiệm người dùng có thể đạt được khi tốc độ tạo ảnh đủ nhanh để không làm gián đoạn luồng ứng dụng
  • Ở các trường hợp như khuôn mặt nhỏ, chính tả chính xác, mô tả chi tiết, kết quả dựa trên dữ liệu, dịch thuật và bản địa hóa, cùng các tác vụ chỉnh sửa và tổng hợp phức tạp, mô hình vẫn có thể mắc lỗi nên cần rà soát kết quả tạo ra

Mô hình Gemini Image nhấn mạnh tạo nhanh và chi phí thấp

  • Nano Banana 2 Lite là mô hình Gemini Image do Google DeepMind công bố, hướng tới tạo và chỉnh sửa hình ảnh nhanh với chi phí thấp
  • Nhóm người dùng chính là nhà sáng tạo, doanh nghiệp và nhà phát triển, phù hợp với các quy trình làm việc cần khám phá nhanh nhiều ý tưởng thị giác
  • Google DeepMind giới thiệu đây là mô hình Gemini Image nhanh và hiệu quả nhất từ trước đến nay, cung cấp khả năng tạo và chỉnh sửa tốc độ cao với mức chi phí thấp nhất
  • Các đường truy cập gồm:

Cân bằng giữa tốc độ, chi phí và chất lượng

  • Giảm độ trễ là trọng tâm, hỗ trợ khám phá nhanh và các tác vụ lặp lại
  • Ở quy mô tạo lớn, mô hình có thể tạo hàng nghìn hình ảnh với chi phí thấp hơn rất nhiều so với các mô hình production nặng hơn
  • Về chất lượng, hướng đi là mang lại nhanh hơn khả năng kiểm soát và độ chính xác vốn được kỳ vọng từ Nano Banana
    • Duy trì tính nhất quán nhân vật
    • Chỉnh sửa hình ảnh chính xác
    • Khai thác kiến thức thế giới thực
  • Trong prompt, càng mô tả chi tiết các yếu tố mong muốn như nhân vật, bối cảnh, không khí tổng thể thì càng dễ đạt được hình ảnh gần với ý định ban đầu
  • Hướng dẫn prompt có tại View prompt guideLearn how to prompt

Ví dụ ứng dụng dựa trên giả định tốc độ tạo ảnh cao

  • Space Lift là ứng dụng cho phép tải ảnh căn phòng lên và ngay lập tức tạo nhiều concept nội thất khác nhau, từ Mid-Century Modern đến Bohemian Chic
  • Gridscape cho phép nhập câu hỏi trên một canvas vô hạn rồi tạo các nút thông tin bằng văn bản và hình ảnh do Nano Banana 2 Lite và Gemini 3.1 Flash Lite tạo ra
    • Người dùng có thể đi theo các đường dẫn có thể nhấp để khám phá sâu hơn những khái niệm liên quan
  • Peek-A-Word biến đoạn văn bản được chọn thành tư liệu trực quan do AI tạo, đồng thời cung cấp định nghĩa ngắn gọn và hình ảnh theo ngữ cảnh trong cùng một không gian
    • Trọng tâm là duy trì luồng học tập mà không cần chuyển tab
  • Anywhere là ứng dụng quả địa cầu 3D tương tác được tạo bằng Nano Banana 2 Lite
    • Khi đính kèm hình ảnh, ứng dụng tạo một loạt bưu thiếp cá nhân hóa với các danh thắng thế giới làm nền
    • Người dùng có thể xoay quả địa cầu và nhấp vào ảnh để xem thông tin về điểm đến ảo

Chỉ số so sánh và model card

  • Google DeepMind giới thiệu Nano Banana 2 Lite là mô hình hiệu quả nhất từ trước đến nay, với sự cân bằng tốt giữa chất lượng và tốc độ
  • Đối tượng so sánh bao gồm mẫu flagship Nano Banana 2
  • Các hạng mục so sánh bao gồm các yếu tố chất lượng tạo ảnh như mức độ tuân thủ prompt, khả năng thể hiện chi tiết và khả năng kiểm soát
  • Phần hiệu năng đưa ra các chỉ số sau
    • Image Editing: điểm Elo chỉnh sửa ảnh so với các mô hình cạnh tranh theo lmarena.ai
    • Image Generation: điểm Elo tạo ảnh so với các mô hình cạnh tranh theo lmarena.ai
    • Latency per 1k resolution image: độ trễ trên mỗi ảnh độ phân giải 1k dựa trên dữ liệu của artificialanalysis.ai
    • Price per 1k resolution image: giá trên mỗi ảnh độ phân giải 1k
  • Model card có tại View model card

Khả năng ứng dụng theo góc nhìn của đối tác

  • Figma Weave đánh giá Nano Banana 2 Lite giúp các nhà thiết kế khám phá nhiều ý tưởng hơn và tạo hình ảnh độc đáo trên canvas dựa trên node
  • Manus AI đang thử nghiệm tạo ảnh thời gian thực cho slide deck và trang web trong các workflow tự động
    • Họ đánh giá tốc độ phù hợp với các vòng lặp thị giác nhanh của AI agent và việc trả kết quả trong vài giây
    • Chất lượng hình ảnh được xem là gần với Nano Banana 2 đầy đủ
  • Artlist cho rằng khi tốc độ tạo nhanh hơn tưởng tượng, người dùng có thể ở lại trong dòng ý tưởng thay vì phải chờ công cụ
  • Weekend cho biết trong trò chơi TV điều khiển bằng giọng nói Wit’s End, instant-ramen nhanh hơn Gemini 3.1 Flash Image khoảng 2.7× theo tiêu chí tạo ảnh 1k
    • Hệ thống xử lý text-to-image, chỉnh sửa và tổng hợp nhiều ảnh bằng một drop-in API duy nhất
  • Latitude đánh giá rằng trong engine tạo thế giới khi người chơi đang khám phá, tốc độ tạo ảnh là yếu tố quan trọng, và instant-ramen cho phép tạo hình ảnh đủ nhanh để theo kịp trải nghiệm chơi

Những giới hạn vẫn cần được xem xét

  • Gemini có thể tạo nhiều loại hình ảnh khác nhau nhưng một số chức năng vẫn đang được cải thiện, vì vậy hình ảnh tạo ra cần được người dùng trực tiếp kiểm tra
  • độ trung thực hình ảnh và văn bản, mô hình có thể gặp khó khăn với khuôn mặt nhỏ, chính tả chính xác và mô tả chi tiết trong ảnh
  • Về dữ liệu và độ chính xác thực tế, kiến thức về thế giới thực khá rộng nhưng chưa hoàn chỉnh
    • Trong tạo infographic, chú thích sơ đồ và biểu diễn dữ liệu phức tạp, mô hình có thể diễn giải sai thông tin hoặc tạo ra kết quả không đúng sự thật
    • Các đầu ra dựa trên dữ liệu cần được xác minh
  • Với dịch thuật và bản địa hóa, mô hình có thể tạo và dịch văn bản đa ngôn ngữ nhưng vẫn có thể gặp khó khăn về ngữ pháp, chính tả, sắc thái văn hóa và thành ngữ
  • Ở các tác vụ chỉnh sửa phức tạp và hòa trộn ảnh, như chỉnh sửa bằng mask, thay đổi ánh sáng lớn như biến ban ngày thành ban đêm, hay ghép nhiều ảnh, kết quả có thể thiếu tự nhiên, xuất hiện artifact thị giác hoặc các cảnh bị đứt đoạn
  • Tính nhất quán nhân vật là một điểm mạnh nhưng không phải lúc nào cũng chính xác, và Google DeepMind đang tiếp tục cải thiện để làm nó ổn định hơn

Tính năng an toàn và lưu ý khi sử dụng

  • Google DeepMind sử dụng lọc dữ liệu quy mô lớn và gắn nhãn dữ liệu nhằm giảm nội dung độc hại trong tập dữ liệu và hạ thấp khả năng tạo ra đầu ra có hại
  • Về an toàn nội dung, công ty tiến hành red team và đánh giá, bao gồm cả an toàn trẻ em và cách thể hiện
  • Các ảnh được tạo ra tích hợp những tính năng bảo mật và an toàn mới nhất, đồng thời SynthID chèn trực tiếp watermark số vô hình vào ảnh để nhận diện ảnh do AI tạo
  • Thông tin về SynthID có tại Learn more
  • Các LLM như Gemini 3.1 Flash-Lite Image có thể tạo ra nội dung không chính xác hoặc gây khó chịu, không đại diện cho quan điểm của Google
  • Cần thận trọng khi tin tưởng, đăng tải hoặc sử dụng nội dung do LLM cung cấp, và không nên dựa vào nó cho các lời khuyên chuyên môn như y tế, pháp lý hay tài chính

1 bình luận

 
Ý kiến trên Hacker News
  • Ví dụ đầu tiên về tạo nội thất nhà khiến tôi ghét đến mức khó diễn tả. Dạo này các môi giới bất động sản cứ cho toàn bộ những căn hộ cũ kỹ, khó bán chạy qua bộ lọc AI, nên trước khi thấy họ thực sự đang cố bán thứ kinh khủng nào với mức giá phi lý, tôi phải lướt qua hàng chục ảnh kiểu “nếu trang trí theo phong cách IKEA thì có thể trông như thế này”

    • Tôi nghĩ những thứ như vậy nên bị xem là trình bày sai sự thật một cách bất hợp pháp. Có quá nhiều vùng xám trong việc sử dụng AI
    • Tôi xem nó gần như lừa đảo. Trên Streeteasy, có một căn hộ trông như thể đã ‘nhét’ được cả bàn làm việc, tủ ngăn kéo và giường queen vào, nhưng rõ ràng mô hình ảnh đã tự ý thu nhỏ đồ nội thất theo tỷ lệ không tồn tại ngoài đời
      Phòng ngủ thực tế chỉ vừa đủ đặt một chiếc giường queen ;(
    • Tôi hoàn toàn đồng ý rằng việc đánh lừa về chính diện mạo thực tế của căn hộ là điều không thể chấp nhận, cả về mặt xã hội lẫn pháp lý. Tuy nhiên, trong lần cải tạo phòng tắm của tôi, mô hình ảnh khá hữu ích cho việc chọn thiết kế
      Nó đặc biệt hữu ích khi khó tự hình dung toàn bộ không gian sẽ trông thế nào nếu ốp gạch ở một số phần nhất định
    • NYC nơi tôi sống, việc đăng những hình ảnh đã chỉnh như vậy đã phổ biến hơn 10 năm rồi
      Trước đây chỉ là chi phí thuê người làm việc đó đắt hơn
      Ảnh đã chỉnh lúc nào cũng cho thấy những bức tường sáng màu và đồ nội thất màu xám kiểu tạp chí giống hệt nhau
      AI chỉ làm nó rẻ hơn, cuối cùng thì mọi chuyện cũng tất yếu thành ra như vậy
      Những ảnh được chỉnh kiểu này thường có một watermark nhỏ cho biết ảnh đã được chỉnh
    • Chỉ cần một nhiếp ảnh gia giỏi thôi cũng đã có hiệu quả cực lớn. Khi bạn tôi bán nhà, tôi đã ngạc nhiên khi thấy căn nhà trông đẹp đến mức nào trong ảnh đăng bán, và dù tôi biết nó không nhỏ, nó vẫn trông rộng đến thế nào
      Đây là vấn đề đã có từ trước khi bộ lọc AI xuất hiện nên không mới, nhưng giờ nó nghiêm trọng hơn nhiều và chi phí cũng thấp hơn
  • Tôi đã nhận được quyền truy cập sớm để thử mô hình này. Là thông qua công việc, chứ vẫn không phải vì Google tự nhiên thích cá nhân tôi lol
    Nó hoạt động đúng như được quảng cáo ở đây, và ở những yếu tố như render văn bản tốt, nó trông giống một phiên bản chưng cất từ Nano Banana 2. Nano Banana 1 yếu hơn nhiều ở điểm này
    Tất nhiên với các prompt chi tiết thì hoàn toàn không đạt mức của Nano Banana 2 gốc. Phàn nàn lớn nhất là với NB2 có thể ép tỷ lệ khung hình bằng lập trình, còn NB2L thì không
    Tuy vậy mức giá $0.034 mỗi ảnh cao hơn tôi dự đoán. Thông thường giá liên quan đến thời gian tạo, nhưng nó tạo nhanh bằng một nửa thời gian so với Nano Banana 1, trong khi Nano Banana 1 là $0.039 mỗi ảnh
    Tuyên bố của Google rằng có thể thay thế trực tiếp pipeline NB1 bằng NB2L là hợp lý
    Hôm qua Google công bố cho phép tạo ảnh miễn phí trong ứng dụng Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), nhưng không nêu rõ dùng mô hình nào. Tôi cho rằng động lực chính của Nano Banana 2 Lite nằm ở đây

    • Thông qua Vertex, ngay cả với NB2 Lite cũng có thể đặt tỷ lệ khung hình bằng lập trình [1]. Tôi đã cập nhật chương trình dùng để tạo ảnh cho GenAI Showdown, đổi model ID thành gemini-3.1-flash-lite-image, và đã dùng được các tỷ lệ như 16:9, 4:3
      [1] - https://cloud.google.com/developers/vertex-ai
    • Tôi tò mò không biết bạn làm công việc gì mà cần tạo ảnh tự động ở quy mô lớn
  • Cũng ổn, nhưng nó nằm trên cái AI Studio hỏng hóc của Google. Một nửa tính năng ở đó cần tài khoản Google One nên tôi không dùng được
    Tôi dùng tài khoản Workspace nên không đủ điều kiện, và cũng không thể chuyển sang. Vì Google One không hỗ trợ tên miền riêng
    Vậy để dùng cả địa chỉ email đẹp lẫn Banana thì tôi phải vận hành hai tài khoản và còn trả tiền nữa sao? Tôi bắt đầu nghĩ rằng số tài khoản Google trả phí đúng đắn ở đây là 0

    • Tôi cũng từng ở tình huống tương tự. Google thật sự cần cải thiện trải nghiệm người dùng cho việc dùng mô hình và thanh toán
      Giải pháp của tôi là OpenRouter. Trong chat phục vụ phát triển và thử nghiệm, tôi có thể tạo ảnh bằng các mô hình Google, và cũng có thể chạy cùng một prompt song song với các mô hình khác. Rất tiện cho việc tạo ảnh nhẹ nhàng
    • Tôi cũng gần như cùng cảnh. Tôi đang trả tiền cho cả One và Workspace cho mục đích cá nhân, nhưng không rõ nên dùng bên nào cho các tính năng kiểu này
      Nhìn chung tôi mặc định dùng tài khoản cá nhân vì có nhiều ngữ cảnh hơn, nhưng như vậy lại cần thêm vài bước để lấy tài liệu từ Workspace Drive
      Và những thứ như Project Genie thì hoàn toàn không dùng được trong Workspace, điều này khá kỳ lạ
    • Hơi quảng cáo lộ liễu một chút, nhưng burlap cho phép bạn nhập key của Gemini Studio hoặc OpenAI để thử đủ thứ mà không phải đụng vào giao diện web. Vì vậy tôi đã làm nó
      https://www.burlap.app/download
  • Tốc độ chắc chắn rất ấn tượng. NB2 gốc mất khoảng 30 giây mỗi ảnh, còn cái này có vẻ dưới 5 giây
    Tôi đã làm một ứng dụng tạo truyện có minh họa, trong đó đưa trẻ em vào làm nhân vật. Tôi muốn vừa giữ phong cách minh họa, vừa ưu tiên sự giống với các em
    Tôi đã thử nhiều mô hình, nhưng dường như chưa mô hình nào tiến gần được đến mức này trong việc giữ nét giống khi đã stylize. Các mô hình khác biến chúng thành những nhân vật chung chung
    Tôi rất mong đưa mô hình này vào onboarding của ứng dụng để người dùng có được khoảnh khắc “à ha” nhanh nhất có thể. Chờ hơn 30 giây thì không lý tưởng
    Tuy nhiên với minh họa thực tế, tôi vẫn sẽ dùng NB2 gốc. Như những người khác đã nói, bản Lite này vẫn còn hơi có vấn đề về sắc thái và tính nhất quán

    • Tôi từng thử làm thứ tương tự, nhưng bị báo lỗi rằng không thể làm những gì liên quan đến trẻ em. Điều đó đã thay đổi rồi sao?
  • Không đưa ChatGPT vào biểu đồ so sánh. Chỉ riêng điều đó đã nói lên rất nhiều

    • Đây là điểm đáng nhắc tới. Nói cho những ai chưa biết thì ChatGPT Image 2 có ELO cao đến vô lý ở mức 1387, cao hơn hơn 100 điểm so với mô hình đứng thứ hai là 1273 (https://arena.ai/leaderboard/text-to-image)
      Nhưng độ trễ là vấn đề, và thiết lập High của ChatGPT Image 2 khá chậm, khoảng 2 phút ở 1024x1024
      Dù thế nào, nếu đưa nó vào biểu đồ này thì biểu đồ sẽ bị bóp méo đến mức vô dụng
      Tôi muốn viết một bài về ChatGPT Image 2, nhưng có vẻ giờ mọi người không còn quan tâm đến việc tạo ảnh chi tiết nữa. Dù trong các bài kiểm thử trước đây, ChatGPT Image 2 áp đảo tất cả
  • Hơi ngạc nhiên là mô hình hình ảnh của Grok thắng Nano Banana ở gần như mọi chỉ số được nhấn mạnh ở đây

    • Thật vậy sao? Có gì tôi chưa thấy à? Thứ nhất, có vẻ điều đó không đúng, và các phiên bản không phải Lite nhìn chung có vẻ thắng Grok
      Thứ hai, ngay từ đầu đây là mô hình tạo hàng loạt chi phí thấp chứ không phải mô hình frontier tối tân, nên benchmark thấp là điều đương nhiên
  • Tôi thích Nano Banana Pro. Hiện vẫn có phương án chạy local nào không? Tôi có nghe nói về Qwen Image, Klein, gần đây là Krea, nên muốn biết có cái nào đáng khuyên dùng không

    • Krea-2 rất tốt. Nếu bạn chấp nhận được giấy phép hạn chế, tốc độ xuất ảnh và JSON prompting, thì Ideogram 4 có lẽ là mô hình gần nhất với nhóm tối tân
      Xem GenAI Showdown trong hồ sơ của tôi sẽ có benchmark so sánh với các mô hình local và độc quyền
      Thực ra nó đạt điểm cao hơn Gemini 2.5, tức NB gốc, khá ấn tượng
    • Krea ổn. Muốn biết thông tin về các mô hình công khai tối tân thì xem r/StableDiffusion
  • Tôi đã tụt lại khá xa ở mảng tạo ảnh, nên thỉnh thoảng chỉ dùng để tạo token nhập vai, đồ nghịch, hoặc tài sản tạm thời cho cá nhân. Theo tiêu chuẩn của tôi thì cái này đúng là điên rồ
    Có thể tạo ảnh trong khoảng 2 giây. Trước đây để tạo ảnh cùng chất lượng bằng ChatGPT phải mất 30 giây đến 1 phút
    Tôi không hiểu phản ứng tiêu cực ở đây

    • Dù vậy độ chi tiết của ChatGPT vẫn tốt hơn nhiều. Nó còn có thể tạo những thứ như truyện tranh 6 khung phức tạp mà Nano Banana không theo kịp
      Và khá nhiều phản ứng tiêu cực đến từ những người vốn ghét khái niệm AI art và mong nó thất bại
    • Trường hợp sử dụng khác nhau.
      Những người làm công việc mà bản thân hình ảnh là trọng tâm sẽ muốn chi nhiều tiền hơn cho mỗi ảnh
      Ngược lại, nếu hình ảnh chỉ là một phần của báo cáo, là kết quả dùng rồi bỏ, hoặc đưa vào demo, thì cách tiếp cận rẻ hơn sẽ tốt hơn
  • Tôi tò mò làm sao để có được thứ như prototype thời gian thực trong phần “hands on” của trang này
    Trên gemini.g có thể thêm canvas hoặc dùng tạo ảnh, nhưng tôi không rõ phải nhập prompt “space lift” vào đâu để ra được như demo

  • Wow, độ trễ đã giảm cực mạnh. Mức này chắc sẽ mở ra vài trường hợp sử dụng mới, nhưng trang web được liên kết không giải thích khác biệt giữa các mô hình theo cách dễ hiểu
    Tuy nhiên, theo trải nghiệm cá nhân khi dùng các mô hình ảnh phổ thông, tôi thấy Google là tốt nhất trong quy trình làm việc của mình. Tất nhiên tôi vẫn chưa thử các nhà cung cấp ở vùng Viễn Đông
    Tôi tò mò không biết người khác nghĩ thế nào