3 điểm bởi GN⁺ 2025-05-08 | 1 bình luận | Chia sẻ qua WhatsApp
  • Google công bố tính năng tạo hình ảnh thông qua mô hình Gemini 2.0 Flash ở dạng bản xem trước dành cho nhà phát triển
  • Có thể tạo, chỉnh sửa và biên tập từng phần hình ảnh bằng lệnh dựa trên văn bản, đồng thời chất lượng hình ảnh và khả năng hiển thị văn bản cũng được cải thiện
  • Giới thiệu nhiều trường hợp sử dụng như reskin sản phẩm, tạo SKU, chỉnh sửa cộng tác theo thời gian thực
  • Có thể thử ngay qua [Google AI Studio] và [Vertex AI], đồng thời giới hạn sử dụng API cũng được nâng lên

Công bố bản xem trước tính năng tạo hình ảnh của Gemini 2.0 Flash

  • Dựa trên phản hồi từ các nhà phát triển, Google cung cấp tính năng tạo hình ảnh thông qua mô hình Gemini 2.0 Flash dưới dạng bản xem trước
  • Người dùng có thể sử dụng qua Google AI Studio hoặc Vertex AI

Các cải tiến chính

  • Cải thiện chất lượng hình ảnh (so với phiên bản thử nghiệm trước đó)
  • Tăng độ chính xác khi hiển thị văn bản
  • Giảm tỷ lệ bị bộ lọc chặn

Ví dụ về các tính năng tạo hình ảnh có thể áp dụng

  • Đổi nền cho ảnh sản phẩm: có thể tái dựng ảnh sản phẩm hiện có với nhiều phông nền và môi trường khác nhau
  • Chỉnh sửa cộng tác thời gian thực: trong ứng dụng Gemini Co-Drawinghỗ trợ chỉnh sửa hình ảnh thời gian thực cho nhiều người dùng
  • Chỉnh sửa hội thoại chỉ một phần của hình ảnh: có thể chỉnh sửa chỉ vùng cụ thể bằng lệnh hội thoại mà không thay đổi toàn bộ
  • Tạo SKU sản phẩm động: kết hợp hình ảnh và văn bản để tự động tạo biến thể sản phẩm mới (màu sắc, nhãn, v.v.)
  • Cộng tác lên ý tưởng cùng Gemini: thông qua tổ hợp văn bản + hình ảnh để hiện thực hóa nhiều kịch bản như nấu ăn, sản phẩm, lập kế hoạch và hơn thế nữa

Ví dụ sử dụng API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

Kế hoạch sắp tới

  • Google dự kiến sẽ tiếp tục mở rộng tính năng thông qua chất lượng cao hơn, bổ sung tính năng, tăng tốc độ và cải thiện gói giá
  • Xem tài liệu chi tiết tại hướng dẫn tạo hình ảnh với Gemini API

1 bình luận

 
GN⁺ 2025-05-08
Ý kiến Hacker News
  • Đã thử so sánh Gemini 2.0 với nhiều mô hình tạo ảnh khác. Không rõ Google đã tích hợp Imagen 3.0 đến mức nào, nhưng nhìn chung chất lượng thẩm mỹ có vẻ khá kém
    • Ưu điểm chính là khía cạnh đa phương thức nhằm duy trì sự ngang hàng với sản phẩm của OpenAI, cùng tốc độ nhanh hơn nhiều so với tính năng tạo ảnh của OpenAI 4o
  • Mỗi lần dùng công cụ thường phải thử nhiều lần mới ra kết quả mong muốn. Có hoài nghi về việc sử dụng giao diện hội thoại
  • Cần dùng cẩn thận. Ví dụ, khi yêu cầu công thức butter chicken chay, hệ thống đã trả về 41MB JSON và 28 ảnh base64. Với giá 4 xu mỗi ảnh, một yêu cầu đã tốn hơn 1 USD
  • Đã dùng Gemini 2.0 để tạo 100 công thức và hình ảnh, và kết quả khá tốt. Sử dụng dữ liệu thô và metadata bảng thay vì prompt văn bản
  • Giá tạo ảnh của Gemini 2.0 là $0.039 mỗi ảnh, đắt hơn Imagen 3. Gemini có thể tạo ảnh qua hội thoại, còn Imagen 3 hoạt động theo kiểu đầu vào văn bản/đầu ra hình ảnh
  • Trong bản demo co-drawing, đã nhận được kết quả lẫn lộn. Kỳ vọng phác thảo cảnh rồi để mô hình mở rộng nó, nhưng cuối cùng lại tạo ra các hình người que được render 3D
  • Đầu ra của mô hình ở mức ổn, và gần đây đã cập nhật mô hình mới cho một dự án. Vẫn còn nhiều kiểu lỗi thất bại, nhưng cần một cuốn sách dạy nấu ăn lớn để thể hiện quy trình làm việc tốt
  • Điều Google và các công ty AI khác đang hướng tới là một thế giới với vô hạn đối tượng do AI tạo ra có thể dùng cho mua sắm hay thương mại điện tử. Đây là một thách thức đối với tay nghề thủ công thực sự của con người và các vật thể tồn tại ngoài đời thực