1 điểm bởi GN⁺ 2025-04-25 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tính năng tạo ảnh mà OpenAI đưa vào ChatGPT từ tháng trước đã đạt cột mốc tạo ra hơn 700 triệu hình ảnh chỉ trong tuần đầu ra mắt
  • Giờ đây, mô hình gpt-image-1 mở rộng tính năng này sang API đã được phát hành, cho phép nhà phát triển và doanh nghiệp tích hợp vào nền tảng của mình
  • Đang được ứng dụng trong nhiều ngành khác nhau cho thiết kế, tạo logo, marketing, chỉnh sửa video, v.v.
  • Đã tăng cường các tính năng an toàn, đồng thời mặc định không sử dụng dữ liệu khách hàng để huấn luyện khi dùng API
  • Tùy theo chất lượng, chi phí ước tính cho mỗi ảnh là khoảng $0.02 (thấp), $0.07 (trung bình), $0.19 (cao)

Công bố mô hình tạo ảnh qua API

  • OpenAI đã phát hành mô hình gpt-image-1, mở rộng tính năng tạo ảnh từng được ưa chuộng trên ChatGPT sang API
  • Mô hình này có thể tạo nhiều phong cách khác nhau, render văn bản chính xác, bám sát hướng dẫn tùy chỉnh của người dùng, và tận dụng tri thức thế giới
  • Doanh nghiệp và startup đang ứng dụng trong nhiều lĩnh vực như thiết kế, thương mại điện tử, giáo dục và game

Các trường hợp sử dụng chính

  • Adobe: Cung cấp tính năng tạo ảnh cho phép thử nghiệm nhiều phong cách thẩm mỹ khác nhau thông qua Firefly và ứng dụng Express
  • Airtable: Sử dụng AI để nâng cao năng suất sáng tạo trong các quy trình công việc quy mô lớn
  • Figma: Tích hợp tính năng tạo và chỉnh sửa ảnh vào nền tảng thông qua gpt-image-1, giúp người dùng khám phá ý tưởng theo cách trực quan
  • Canva đang tích hợp gpt-image-1 vào Canva AI và Magic Studio để mở rộng khả năng tạo và chỉnh sửa thiết kế
    • Ví dụ, có thể chuyển bản phác thảo tay thành các thành phần đồ họa tinh chỉnh, hoặc cho phép chỉnh sửa độ chính xác cao
  • GoDaddy đang thử nghiệm tạo ảnh cho việc tạo và chỉnh sửa logo
    • Có thể xóa nền, tạo typography, và sản xuất nội dung phản ánh bản sắc thương hiệu
    • Thông qua liên kết với GoDaddy Airo®, cũng hỗ trợ tạo nội dung mạng xã hộitài sản marketing
  • HubSpot đang thử nghiệm tính năng tạo ảnh để sản xuất tài liệu marketing và bán hàng
    • Với khả năng tạo hình ảnh chất lượng cao mà không cần designer, có thể ứng dụng cho email, mạng xã hội và landing page
  • Gamma: Đang tạo hơn 5 triệu ảnh AI mỗi ngày để hỗ trợ bài thuyết trình và website
  • HeyGen: Cải thiện tính năng tạo và chỉnh sửa avatar để mang lại trải nghiệm cá nhân hóa hơn cho người dùng
  • OpusClip: Tạo thumbnail thu hút lượt nhấp cho các nhà sáng tạo YouTube
  • Instacart đang thử nghiệm dùng API tạo ảnh để thêm hình ảnh vào công thức nấu ăn hoặc danh sách mua sắm
  • invideo đã áp dụng gpt-image-1 để bổ sung các tính năng cải thiện tạo văn bản, kiểm soát chỉnh sửa chính xác, và cung cấp hướng dẫn phong cách

An toàn

  • gpt-image-1 sử dụng các cơ chế bảo vệ giống với khả năng tạo ảnh 4o đang dùng trong ChatGPT
  • Ngăn tạo ra hình ảnh có hại, đồng thời bao gồm siêu dữ liệu C2PA trong ảnh được tạo
  • Có thể điều chỉnh độ nhạy lọc thông qua tham số moderation (mặc định: auto, độ nhạy thấp: low)
  • OpenAI không huấn luyện mô hình bằng dữ liệu khách hàng API, và đầu vào/đầu ra tuân theo chính sách sử dụng API

Chính sách giá

  • Token đầu vào văn bản: $5 cho mỗi 1 triệu token
  • Token đầu vào hình ảnh: $10 cho mỗi 1 triệu token
  • Token đầu ra hình ảnh: $40 cho mỗi 1 triệu token
  • Tùy theo chất lượng, chi phí cho mỗi ảnh vào khoảng $0.02 (thấp), $0.07 (trung bình), $0.19 (cao)

Cách bắt đầu

  • gpt-image-1 hiện có thể dùng trên Images API toàn cầu, và sẽ sớm hỗ trợ cả Responses API
  • Một số nhà phát triển có thể cần trải qua quy trình xác minh tổ chức để sử dụng
  • Có thể thử tính năng trong Playground và bắt đầu thông qua tài liệu hướng dẫn

1 bình luận

 
GN⁺ 2025-04-25
Ý kiến Hacker News
  • Hôm qua có người phàn nàn về việc tỷ lệ từ chối rất cao đối với các công việc liên quan đến chính phủ và quân đội. Điều này có thể khiến các nhà thầu dùng các mô hình mã nguồn mở do CN phát triển, từ đó làm ảnh hưởng đến công việc

    • Hôm nay lại phát hiện ra rằng các công ty làm trong lĩnh vực đó có một lớp truy cập API gần như không kiểm duyệt nội dung. Không rõ phải yêu cầu lớp truy cập này như thế nào, nhưng tôi đã nói chuyện với 4 nhà thầu quốc phòng đang dùng nó
  • Vì tò mò nên đã tạo cùng một prompt cho từng mức chất lượng: Auto, low, medium, high

    • Prompt: "Một chú chó dễ thương đang ôm một chú mèo dễ thương"
    • Tôi đã đăng vài ảnh DALL:E 3 trong phần bình luận để tiện so sánh
  • Tôi đã tạo 5 hình ảnh trong Playground. Một ảnh chỉ dùng prompt văn bản, còn 4 ảnh kia dùng ảnh từ điện thoại. Tôi đã tốn $0.85 để làm chân dung phong cách Studio Ghibli cho nhóm chat gia đình, nhưng như vậy thì quá đắt để dùng trong sản phẩm cho khách hàng

  • Tôi tò mò không biết ứng dụng nào cần tạo ra hàng trăm hoặc hàng nghìn hình ảnh. Tôi thích việc biến ảnh gia đình thành phong cách Ghibli, nhưng không cần làm hàng loạt. Mỗi lần tôi dùng tính năng tạo ảnh đều là cho nhu cầu một lần, và làm trong giao diện ChatGPT là đã đủ thỏa mãn rồi

  • Xét về giá, API này sẽ khó biện minh về mặt giá trị trừ khi bạn thu được giá trị từ việc cung cấp ảnh tham chiếu. Ảnh medium 1024x1024 được tạo ra có giá $0.04 mỗi ảnh, thuộc cùng nhóm chi phí với Imagen 3 và Flux 1.1 Pro. Qua thử nghiệm trong Playground mới, ảnh medium có chất lượng kém hơn hai mô hình cạnh tranh đó và vẫn mất hơn 15 giây để tạo

    • Prompt cho mô hình này khác đáng kể và khó hơn so với các mô hình truyền thống. Các mẹo prompt ảnh truyền thống về cơ bản không hoạt động, và rất khó để có kết quả dùng được nếu không tăng cường prompt đáng kể
  • "Chỉnh sửa video: invideo giúp hàng triệu người dùng biến ý tưởng thành video bằng AI. Với việc tích hợp gpt-image-1, nền tảng này nay cung cấp khả năng tạo văn bản tốt hơn, kiểm soát chỉnh sửa chi tiết hơn và hướng dẫn phong cách nâng cao"

    • Tôi thắc mắc liệu điều này có nghĩa là nó cũng xử lý video theo cách nào đó hay không
  • Việc sử dụng gpt-image-1 được tính giá theo token, với mức giá tách riêng cho token văn bản và token hình ảnh

    • Token đầu vào văn bản (văn bản prompt): $5 cho mỗi 1M token
    • Token đầu vào hình ảnh (ảnh đầu vào): $10 cho mỗi 1M token
    • Token đầu ra hình ảnh (ảnh được tạo): $40 cho mỗi 1M token
    • Trên thực tế, mức này tương đương khoảng $0.02, $0.07, $0.19 cho mỗi ảnh vuông chất lượng thấp, trung bình và cao
    • Với startup thì mức giá này hơi đắt
  • Dành cho những ai tò mò: đây là mô hình dựa trên LLM chứ không phải dựa trên diffusion. Vì vậy nó bám theo prompt văn bản với độ chính xác cao hơn nhiều

    • Ví dụ, người dùng ứng dụng tạo ảnh (bao gồm cả tôi) đã cố tạo ảnh một người ở trong túi của chuột túi
    • Dùng prompt nào cũng không làm được
    • Mô hình mới này làm được ngay trong một lần
  • GoDaddy đang tích cực thử nghiệm việc tích hợp tạo ảnh để khách hàng có thể tạo logo dễ chỉnh sửa

    • Tôi nhớ là 1-2 năm trước trên Discord đã gặp một người làm về các biểu tượng do khách hàng tạo cho GoDaddy. Những mô hình tùy chỉnh ở quy mô đó có thể sẽ bị thay thế bởi gpt-image-1
  • Có ai biết "token hình ảnh" trong cách tính giá đại diện cho cái gì không?

    • Tôi đang thắc mắc liệu đó có phải là các khối ảnh kích thước cố định hay không