- Tính năng tạo ảnh mà OpenAI đưa vào ChatGPT từ tháng trước đã đạt cột mốc tạo ra hơn 700 triệu hình ảnh chỉ trong tuần đầu ra mắt
- Giờ đây, mô hình gpt-image-1 mở rộng tính năng này sang API đã được phát hành, cho phép nhà phát triển và doanh nghiệp tích hợp vào nền tảng của mình
- Đang được ứng dụng trong nhiều ngành khác nhau cho thiết kế, tạo logo, marketing, chỉnh sửa video, v.v.
- Đã tăng cường các tính năng an toàn, đồng thời mặc định không sử dụng dữ liệu khách hàng để huấn luyện khi dùng API
- Tùy theo chất lượng, chi phí ước tính cho mỗi ảnh là khoảng $0.02 (thấp), $0.07 (trung bình), $0.19 (cao)
Công bố mô hình tạo ảnh qua API
- OpenAI đã phát hành mô hình gpt-image-1, mở rộng tính năng tạo ảnh từng được ưa chuộng trên ChatGPT sang API
- Mô hình này có thể tạo nhiều phong cách khác nhau, render văn bản chính xác, bám sát hướng dẫn tùy chỉnh của người dùng, và tận dụng tri thức thế giới
- Doanh nghiệp và startup đang ứng dụng trong nhiều lĩnh vực như thiết kế, thương mại điện tử, giáo dục và game
Các trường hợp sử dụng chính
- Adobe: Cung cấp tính năng tạo ảnh cho phép thử nghiệm nhiều phong cách thẩm mỹ khác nhau thông qua Firefly và ứng dụng Express
- Airtable: Sử dụng AI để nâng cao năng suất sáng tạo trong các quy trình công việc quy mô lớn
- Figma: Tích hợp tính năng tạo và chỉnh sửa ảnh vào nền tảng thông qua
gpt-image-1, giúp người dùng khám phá ý tưởng theo cách trực quan
- Canva đang tích hợp gpt-image-1 vào Canva AI và Magic Studio để mở rộng khả năng tạo và chỉnh sửa thiết kế
- Ví dụ, có thể chuyển bản phác thảo tay thành các thành phần đồ họa tinh chỉnh, hoặc cho phép chỉnh sửa độ chính xác cao
- GoDaddy đang thử nghiệm tạo ảnh cho việc tạo và chỉnh sửa logo
- Có thể xóa nền, tạo typography, và sản xuất nội dung phản ánh bản sắc thương hiệu
- Thông qua liên kết với GoDaddy Airo®, cũng hỗ trợ tạo nội dung mạng xã hội và tài sản marketing
- HubSpot đang thử nghiệm tính năng tạo ảnh để sản xuất tài liệu marketing và bán hàng
- Với khả năng tạo hình ảnh chất lượng cao mà không cần designer, có thể ứng dụng cho email, mạng xã hội và landing page
- Gamma: Đang tạo hơn 5 triệu ảnh AI mỗi ngày để hỗ trợ bài thuyết trình và website
- HeyGen: Cải thiện tính năng tạo và chỉnh sửa avatar để mang lại trải nghiệm cá nhân hóa hơn cho người dùng
- OpusClip: Tạo thumbnail thu hút lượt nhấp cho các nhà sáng tạo YouTube
- Instacart đang thử nghiệm dùng API tạo ảnh để thêm hình ảnh vào công thức nấu ăn hoặc danh sách mua sắm
- invideo đã áp dụng gpt-image-1 để bổ sung các tính năng cải thiện tạo văn bản, kiểm soát chỉnh sửa chính xác, và cung cấp hướng dẫn phong cách
An toàn
- gpt-image-1 sử dụng các cơ chế bảo vệ giống với khả năng tạo ảnh 4o đang dùng trong ChatGPT
- Ngăn tạo ra hình ảnh có hại, đồng thời bao gồm siêu dữ liệu C2PA trong ảnh được tạo
- Có thể điều chỉnh độ nhạy lọc thông qua tham số
moderation (mặc định: auto, độ nhạy thấp: low)
- OpenAI không huấn luyện mô hình bằng dữ liệu khách hàng API, và đầu vào/đầu ra tuân theo chính sách sử dụng API
Chính sách giá
- Token đầu vào văn bản: $5 cho mỗi 1 triệu token
- Token đầu vào hình ảnh: $10 cho mỗi 1 triệu token
- Token đầu ra hình ảnh: $40 cho mỗi 1 triệu token
- Tùy theo chất lượng, chi phí cho mỗi ảnh vào khoảng $0.02 (thấp), $0.07 (trung bình), $0.19 (cao)
Cách bắt đầu
- gpt-image-1 hiện có thể dùng trên Images API toàn cầu, và sẽ sớm hỗ trợ cả Responses API
- Một số nhà phát triển có thể cần trải qua quy trình xác minh tổ chức để sử dụng
- Có thể thử tính năng trong Playground và bắt đầu thông qua tài liệu hướng dẫn
1 bình luận
Ý kiến Hacker News
Hôm qua có người phàn nàn về việc tỷ lệ từ chối rất cao đối với các công việc liên quan đến chính phủ và quân đội. Điều này có thể khiến các nhà thầu dùng các mô hình mã nguồn mở do CN phát triển, từ đó làm ảnh hưởng đến công việc
Vì tò mò nên đã tạo cùng một prompt cho từng mức chất lượng:
Auto,low,medium,highTôi đã tạo 5 hình ảnh trong Playground. Một ảnh chỉ dùng prompt văn bản, còn 4 ảnh kia dùng ảnh từ điện thoại. Tôi đã tốn $0.85 để làm chân dung phong cách Studio Ghibli cho nhóm chat gia đình, nhưng như vậy thì quá đắt để dùng trong sản phẩm cho khách hàng
Tôi tò mò không biết ứng dụng nào cần tạo ra hàng trăm hoặc hàng nghìn hình ảnh. Tôi thích việc biến ảnh gia đình thành phong cách Ghibli, nhưng không cần làm hàng loạt. Mỗi lần tôi dùng tính năng tạo ảnh đều là cho nhu cầu một lần, và làm trong giao diện ChatGPT là đã đủ thỏa mãn rồi
Xét về giá, API này sẽ khó biện minh về mặt giá trị trừ khi bạn thu được giá trị từ việc cung cấp ảnh tham chiếu. Ảnh
medium1024x1024 được tạo ra có giá $0.04 mỗi ảnh, thuộc cùng nhóm chi phí với Imagen 3 và Flux 1.1 Pro. Qua thử nghiệm trong Playground mới, ảnh medium có chất lượng kém hơn hai mô hình cạnh tranh đó và vẫn mất hơn 15 giây để tạo"Chỉnh sửa video: invideo giúp hàng triệu người dùng biến ý tưởng thành video bằng AI. Với việc tích hợp gpt-image-1, nền tảng này nay cung cấp khả năng tạo văn bản tốt hơn, kiểm soát chỉnh sửa chi tiết hơn và hướng dẫn phong cách nâng cao"
Việc sử dụng gpt-image-1 được tính giá theo token, với mức giá tách riêng cho token văn bản và token hình ảnh
Dành cho những ai tò mò: đây là mô hình dựa trên LLM chứ không phải dựa trên diffusion. Vì vậy nó bám theo prompt văn bản với độ chính xác cao hơn nhiều
GoDaddy đang tích cực thử nghiệm việc tích hợp tạo ảnh để khách hàng có thể tạo logo dễ chỉnh sửa
Có ai biết "token hình ảnh" trong cách tính giá đại diện cho cái gì không?