10 điểm bởi GN⁺ 2025-08-27 | 2 bình luận | Chia sẻ qua WhatsApp
  • Google đã công bố Gemini 2.5 Flash Image, trước đây được biết đến với tên Nano-Banana, với khả năng tạo và chỉnh sửa hình ảnh được tăng cường đáng kể
  • Hỗ trợ duy trì tính nhất quán của nhân vật, chỉnh sửa cục bộ bằng ngôn ngữ tự nhiên, khai thác tri thức thế giới, kết hợp nhiều hình ảnh và hơn thế nữa
  • Nhà phát triển có thể sử dụng ngay mô hình thông qua Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai và các nền tảng khác
  • Giá là 30 USD cho mỗi 1 triệu token đầu ra, tương đương khoảng 0,039 USD cho mỗi hình ảnh
  • Tất cả sản phẩm đầu ra đều được gắn watermark số SynthID vô hình

Giới thiệu Gemini 2.5 Flash Image

  • Google đã công bố Gemini 2.5 Flash Image (tên mã nano-banana), mô hình tạo và chỉnh sửa hình ảnh thế hệ tiếp theo
  • Với bản cập nhật này, giờ đây có thể ghép nhiều hình ảnh thành một, duy trì tính nhất quán của một người hoặc vật thể cụ thể, thực hiện các biến đổi tinh vi bằng ngôn ngữ tự nhiên, cũng như tạo và chỉnh sửa hình ảnh dựa trên tri thức thế giới của Gemini
  • Ở phiên bản đầu tiên là Gemini 2.0 Flash, các ưu điểm đã là độ trễ thấp, hiệu quả chi phí và dễ sử dụng; nhưng phản hồi từ người dùng đã giúp bổ sung thêm chất lượng hình ảnh cao hơn và khả năng kiểm soát sáng tạo mạnh hơn trong lần này
  • Hiện đã có trên Gemini API, Google AI Studio, Vertex AI và các nền tảng khác, với mức giá 30 USD cho mỗi 1 triệu token đầu ra (khoảng 0,039 USD cho mỗi hình ảnh)
  • Các phương thức vào/ra khác cũng áp dụng chính sách giá giống với Gemini 2.5 Flash
  • Trang chính thức https://deepmind.google/models/gemini/image/

Các tính năng và kịch bản chính

  • Nâng cấp “Build Mode” trong Google AI Studio

    • Việc phát triển ứng dụng trở nên đơn giản hơn với Gemini 2.5 Flash Image
    • Nhà phát triển có thể nhanh chóng tạo, thử nghiệm và remix ứng dụng AI tùy chỉnh, đồng thời triển khai trực tiếp trong Google AI Studio hoặc lưu mã lên GitHub
    • Ví dụ, chỉ với một prompt như “tạo ứng dụng chỉnh sửa ảnh cho phép người dùng tải ảnh lên và áp dụng bộ lọc”, bạn có thể tạo ứng dụng một cách đơn giản
    • Tính năng chọn/remix mẫu có sẵn cũng được cung cấp miễn phí
  • Duy trì tính nhất quán của nhân vật

    • Trong quá trình tạo ảnh, việc giữ nguyên diện mạo của cùng một nhân vật là một thách thức lớn
    • Gemini 2.5 Flash Image có thể được tận dụng hiệu quả cho đặt cùng một người vào nhiều bối cảnh khác nhau, thể hiện sản phẩm ở nhiều góc độ/vị trí, đảm bảo tính nhất quán của tài sản thương hiệu
    • Ứng dụng mẫu trong Google AI Studio giúp dễ dàng trình diễn tính nhất quán của nhân vật và tùy biến mã
    • Tính năng này cũng có thể được ứng dụng để đảm bảo tính nhất quán thiết kế dựa trên mẫu như thẻ bất động sản, thẻ nhân viên, mockup sản phẩm hàng loạt
  • Chỉnh sửa hình ảnh bằng prompt ngôn ngữ tự nhiên

    • Người dùng có thể biến đổi một phần hình ảnh chỉ bằng chỉ dẫn ngôn ngữ tự nhiên
    • Ví dụ bao gồm làm mờ nền, xóa vết bẩn trên áo thun, xóa người khỏi ảnh, thay đổi tư thế, chuyển ảnh đen trắng thành ảnh màu
    • Một ứng dụng mẫu hỗ trợ chỉnh sửa theo UI/prompt cũng được cung cấp để có trải nghiệm áp dụng thực tế
  • Khai thác nguyên bản dựa trên tri thức thế giới

    • Trong khi các mô hình trước đây mạnh về tạo hình ảnh thẩm mỹ, khả năng hiểu ngữ nghĩa về thế giới thực còn hạn chế
    • Gemini 2.5 Flash Image có thể dựa trên tri thức thế giới để nhận diện sơ đồ vẽ tay, phản hồi câu hỏi về thế giới thực, và thực hiện các lệnh chỉnh sửa phức tạp
    • Ví dụ ứng dụng trực tiếp là một app biến canvas đơn giản thành gia sư giáo dục tương tác
  • Hợp nhất nhiều hình ảnh

    • Mô hình này có thể hiểu và ghép nhiều hình ảnh một cách tự nhiên
    • Ví dụ, hỗ trợ chèn sản phẩm vào nền mới, thay đổi tông màu và chất liệu của cả căn phòng, hợp nhất hình ảnh bằng một prompt duy nhất*
    • Có thể kéo thả sản phẩm bằng ứng dụng mẫu và tạo ảnh hợp nhất mang tính quang thực

Bắt đầu và quan hệ đối tác

  • Có thể bắt đầu ngay qua tài liệu dành cho nhà phát triển; hiện mô hình đang ở trạng thái preview nhưng sẽ sớm ổn định
  • Tất cả các ứng dụng demo đều có thể remix mã và tùy chỉnh trong Google AI Studio
  • Hợp tác với OpenRouter.ai để cung cấp mô hình cho 3 triệu nhà phát triển; đây cũng là mô hình đầu tiên trong hơn 480 mô hình được OpenRouter hỗ trợ có khả năng tạo ảnh
  • Hợp tác với fal.ai để mở rộng hỗ trợ tới cộng đồng nhà phát triển rộng lớn hơn

Watermark số và phản hồi

  • Tất cả hình ảnh được tạo hoặc chỉnh sửa bằng Gemini 2.5 Flash Image đều được gắn watermark số SynthID vô hình để có thể nhận diện là sản phẩm do AI tạo ra
  • Google đang liên tục cải thiện các tính năng như chất lượng văn bản, tính nhất quán của nhân vật và khả năng mô tả chi tiết hình ảnh
  • Phản hồi từ nhà phát triển được tiếp nhận thường xuyên qua diễn đàn dành cho nhà phát triển của Google hoặc X (trước đây là Twitter)

Ví dụ sử dụng đơn giản (mã Python)

  • Trong Python, có thể sử dụng Gemini 2.5 Flash Image với prompt và hình ảnh mong muốn thông qua genai SDK cùng các thư viện PIL và io
  • Ví dụ: có thể áp dụng prompt tự do như “con mèo của tôi đang ăn nano-banana trong nhà hàng”
  • Kết quả đầu ra có thể được lưu trong mã dưới cả dạng văn bản đơn giản lẫn tệp hình ảnh

Định hướng phát triển tiếp theo

  • Google đang tiếp tục nâng cao chất lượng ở các mặt như render văn bản dài, tính nhất quán nhân vật đáng tin cậy hơn và biểu đạt chi tiết chân thực hơn
  • Thúc đẩy sự tham gia tích cực và phản hồi từ cộng đồng
  • Kỳ vọng mở rộng đa dạng trải nghiệm sáng tạo và phát triển với Gemini 2.5 Flash Image

2 bình luận

 
GN⁺ 2025-08-27
Ý kiến Hacker News
  • Cái này giống như khoảnh khắc GPT-4 của các mô hình chỉnh sửa ảnh. Xem kết quả đáng kinh ngạc trên Twitter
    • nano banana, tức gemini 2.5 flash, có hiệu năng cực kỳ ấn tượng, tăng tới 171 điểm elo trên lmarena
    • Tìm kiếm nano banana trên Twitter sẽ thấy nhiều kết quả rất đáng kinh ngạc
    • Dạo này mọi tên miền "nano banana" đều đã bị đăng ký để cung cấp UI tạo ảnh riêng, và tất cả đều cho cảm giác như những tay trung gian ăn theo tên mô hình nổi tiếng
    • Không hiểu vì sao tên lại là nano banana
  • Đây chính là mô hình nano-banana nổi tiếng, và hiện nay trên LMArena nó đã được đổi tên thành gemini-2.5-flash-image-preview
  • Khi thử tạo ảnh bằng Gemini thì một nửa số lần nó trả lời là không thể
    • Hơn nữa, các tính năng Google công bố lại bị phân tán khắp nơi, nên hoàn toàn không rõ có thể dùng chúng ở sản phẩm nào và phải trả tiền ở đâu, tạo cảm giác rất rối rắm
  • Rốt cuộc các mô hình ảnh đúng là ma cà rồng hút thời gian
    • Tạo một căn phòng thì dễ, nhưng làm cho cùng căn phòng đó nhất quán ở nhiều góc nhìn thì gần như bất khả thi
    • Khó dùng cho những công việc cần tính nhất quán hình ảnh
  • Tôi đã số hóa ảnh gia đình, nhưng nhiều ảnh bị hư hại nên rất khó khôi phục
    • Mô hình lần này có vẻ giỏi phục hồi mà không thay đổi chi tiết, nên có cảm giác cuối cùng cũng đã đến lúc dùng được
    • Thật ra những lỗi như vậy có thể tự động phục hồi bằng máy quét phim + tính năng ICE và phần mềm như Vuescan
      • Có vẻ không cần thiết phải giao hàng trăm tấm ảnh cho một AI đám mây còn mang tính thử nghiệm
    • Không biết có ai biết phần mềm nâng chất lượng video nào không
      • Tôi đang số hóa các băng Video 2000 và VHS, và muốn cải thiện các đoạn phim kỷ niệm dù chỉ một chút
    • Hy vọng nó làm tốt, nhưng một trong các ví dụ cho cảm giác khuôn mặt bị AI hóa quá mức
    • Thực ra mô hình Flux Kontext đã đạt đến mức này từ vài tháng trước rồi
  • Hiệu năng mô hình rất ấn tượng, nhưng đồng thời cũng lo ngại về tác động xã hội
    • Chỉ cần nhìn phần bình luận trên Facebook là đã thấy bất an
    • Tôi đã thử SynthID của Google và thấy khá ổn
      • Dù nén, cắt, resize, chỉnh màu hay overpainting thì watermark vẫn còn
    • Gần đây tôi cũng bị lừa bởi một vụ deepfake scam trong sự kiện phóng tên lửa của SpaceX và mất 15k BTC
      • Công nghệ quá tinh vi nên các cuộc tấn công ngày càng nguy hiểm hơn
    • Có vẻ chắc chắn là phần bình luận Facebook đang do bot vận hành
  • Ví dụ về chiếc đèn khá ấn tượng
    • Kết nối nguồn, ánh sáng và cả bóng đổ đều được thể hiện tự nhiên
  • Tôi thích việc nó nhanh hơn nhiều so với tạo ảnh bằng ChatGPT
    • ChatGPT quá chậm, đến mức phải nhận kết quả qua thông báo
    • Chỉ tưởng tượng ra hình kiểu “gương mặt của các nhà đầu tư OpenAI sau khi dùng thử Gemini 2.5 Flash Image” cũng đã thấy buồn cười
  • Có một việc tôi đã muốn làm từ lâu
    • Đó là thay một đối tượng trong ảnh 1 bằng đối tượng từ ảnh 2, và tôi còn muốn chỉ định chính xác cả vị trí
    • Tôi đã thử nhiều mô hình nhưng đều thất bại; mô hình lần này thì gần đúng, nhưng cuối cùng lại thay nhầm đối tượng khác
    • Không biết có mô hình nào chuyên về việc thay một vị trí cụ thể bằng ảnh tham chiếu hay không
    • Mô hình ACE++ của Alibaba hỗ trợ tính năng đó
      • Nó đang được dùng tại phind.design, nhưng đây là một tác vụ khá đặc thù nên không phổ biến lắm