- Tính năng tạo ảnh của ChatGPT vừa được nâng cấp mới, mang lại khả năng chỉnh sửa chính xác hơn và tốc độ tạo nhanh hơn
- Mô hình GPT‑Image‑1.5 bám sát chỉ dẫn văn bản hơn, đồng thời có thể chỉnh sửa mà vẫn giữ được độ giống nhân vật cùng ánh sáng và bố cục
- Thông qua giao diện thanh bên Images mới, hỗ trợ kiểu dáng cài sẵn, prompt đang thịnh hành và tính năng tái sử dụng ngoại hình
- Trên API cũng có cùng các cải tiến hiệu năng, đồng thời giảm 20% chi phí, phù hợp để tạo logo thương hiệu và hình ảnh sản phẩm
- Bản cập nhật này được triển khai ngay cho tất cả người dùng ChatGPT và API, cải thiện đáng kể tính thực dụng và chất lượng của việc tạo ảnh
Giới thiệu GPT‑Image‑1.5
- Công bố phiên bản mới của ChatGPT Images dựa trên mô hình tạo ảnh mạnh mẽ nhất
- Bám sát chỉ dẫn văn bản hơn và có thể chỉnh sửa trong khi vẫn giữ được các chi tiết như độ giống khuôn mặt
- Tốc độ tạo ảnh nhanh hơn tối đa 4 lần, nâng cao hiệu quả thử nghiệm lặp lại và khám phá ý tưởng
- Mô hình mang lại biến đổi giàu biểu đạt, kết xuất văn bản dày đặc và kết quả tự nhiên
- Hỗ trợ từ chỉnh sửa nhỏ đến tái cấu trúc hoàn toàn, đồng thời có thể tạo nhanh bằng cách chọn kiểu dáng cài sẵn
- Đang được triển khai dần cho toàn bộ người dùng ChatGPT và được cung cấp dưới tên GPT‑Image‑1.5 trên API
Kết quả phù hợp với ý định của người dùng
- Mô hình chỉ chỉnh sửa phần được yêu cầu, đồng thời duy trì nhất quán ánh sáng, bố cục và độ giống nhân vật
- Nhờ đó, đạt được mức độ khớp cao trong chỉnh sửa ảnh, mô phỏng trang phục và kiểu tóc, bộ lọc phong cách, chuyển đổi ý tưởng
- ChatGPT có thể hoạt động như một studio sáng tạo di động, vừa thực hiện chỉnh sửa thực dụng vừa tái cấu trúc mang tính nghệ thuật
- Hỗ trợ nhiều kiểu chỉnh sửa khác nhau (thêm, xóa, kết hợp, pha trộn, v.v.)
- Tăng cường khả năng biến đổi sáng tạo để thêm các yếu tố như văn bản và bố cục
- So với GPT Image 1.0, khả năng hiểu chỉ dẫn được cải thiện, cho phép chỉnh sửa tinh vi hơn
- Chất lượng kết xuất văn bản dày đặc và cỡ nhỏ được cải thiện
Không gian tạo ảnh mới
- Giới thiệu thanh bên chuyên dụng Images trong ChatGPT để rút ngắn quá trình khám phá và tạo ảnh
- Bao gồm bộ lọc cài sẵn, prompt đang thịnh hành và tính năng tái sử dụng ngoại hình
- Có thể sử dụng lặp lại chỉ với một lần tải lên mà không cần dùng lại camera roll
- Tốc độ tạo ảnh được cải thiện tối đa 4 lần, có thể tạo nhiều ảnh cùng lúc
- Cung cấp kết quả phù hợp với tầm nhìn của người dùng từ chỉnh sửa nhỏ đến tái cấu trúc hoàn toàn
Cải thiện chất lượng bổ sung
- Cải thiện chất lượng có thể dùng ngay như thể hiện nhiều khuôn mặt nhỏ, kết xuất kết quả tự nhiên
- Ví dụ: tái hiện chân thực khung cảnh đường phố London thập niên 1970, với tiêu điểm chi tiết và biểu đạt nhân vật được nâng cao
Điểm cải thiện và giới hạn
- Xác nhận cải thiện hiệu năng rõ rệt trong nhiều trường hợp so với phiên bản đầu
- Tuy vậy, một số kết quả vẫn chưa hoàn hảo và xử lý nhiều khuôn mặt, xử lý đa ngôn ngữ vẫn còn dư địa để cải thiện
Cung cấp GPT Image 1.5 qua API
- Phiên bản API bao gồm các cải tiến tương tự như ChatGPT Images
- Duy trì tính nhất quán của logo thương hiệu và hình ảnh chủ đạo
- Phù hợp để tạo ảnh cho marketing và thương mại điện tử
- Chi phí đầu vào và đầu ra giảm 20%, cho phép tạo nhiều ảnh hơn với cùng ngân sách
- Có thể trải nghiệm trong OpenAI Playground, gallery và hướng dẫn prompt
- Các công ty như Wix, Canva, Figma, Envato đã sử dụng
- Wix đánh giá rằng đây là “tạo ảnh chất lượng cao, độ nhất quán cao hỗ trợ quy trình sản xuất nhanh”
Phát hành và triển khai
- Mô hình ChatGPT Images mới được triển khai ngay tới mọi người dùng ChatGPT và API trên toàn thế giới
- Có thể sử dụng mà không cần chọn mô hình riêng, còn phiên bản trước được duy trì dưới dạng Custom GPT
- OpenAI đánh giá bản cập nhật này là một bước tiến quan trọng trong sự phát triển của công nghệ tạo ảnh
- Trong tương lai dự kiến sẽ có thêm các cải tiến như chỉnh sửa tinh vi hơn và hỗ trợ đa ngôn ngữ
1 bình luận
Ý kiến trên Hacker News
Chia sẻ kết quả của gpt-image 1.5 trên trang GenAI Showdown
OpenAI vẫn rất mạnh về khả năng hiểu prompt, nhưng độ trung thực (fidelity) của hình ảnh trước đây còn yếu. Bản cập nhật lần này đã cải thiện khá nhiều điểm yếu đó
Đặc biệt, mô hình xử lý tốt chỉnh sửa cục bộ (localized edit) mà không làm hỏng tổng thể thẩm mỹ. Điểm số đã tăng gấp đôi từ 4/12 lên 8/12, và đây là mô hình duy nhất vượt qua được “Giraffe prompt”
Khả năng điều khiển (steerability) của mô hình cũng cao, ở mức khoảng 90%
Các tính năng mới được bổ sung gồm phần outtakes cho từng mô hình, thêm các mô hình REVE và Flux.2 Dev, cùng hệ thống chấm điểm dựa trên trọng số
Nếu muốn so sánh ba mô hình (gpt-image-1, gpt-image-1.5, NB Pro), xem liên kết này
Đang chuẩn bị một bài blog tổng hợp các thử nghiệm liên quan đến Nano Banana
Khi thử mô hình ChatGPT Image mới, thấy nó kém hơn khá nhiều so với Nano Banana Pro, nhưng vẫn tốt hơn Nano Banana bản thường
Giá cả chưa rõ ràng, nhưng có vẻ gpt-image-1.5 rẻ hơn mô hình cũ khoảng 20%
Điểm thú vị là các trường hợp tạo lưới (grid generation). NBP bị vỡ tính nhất quán của prompt từ mức 4x4 trở lên, còn OpenAI đã thử một ví dụ 6x6, điều này khá ấn tượng
Trong lúc đó, có thể xem các kết quả ấn tượng của NB Pro ở blog này
NB Pro đã cho ra những kết quả đáng kinh ngạc như ghép trò chơi xếp hình jigsaw chưa từng thấy, ước lượng địa hình 3D, hay biến cửa sổ thành gương
Ví dụ, khi yêu cầu hai người chèo thuyền, nó làm chiếc thuyền nhỏ đến mức gần như không đủ chỗ ngồi
Ngoài ra, mỗi lần đưa prompt chỉnh sửa thì ngữ cảnh hội thoại trước đó lại biến mất, lỗi này rất bất tiện
Để có kết quả tự nhiên hơn, tôi thêm các cụm như “shaky amateur smartphone photo” vào đầu prompt
Có thể xem thêm phản ứng liên quan trong tweet này
gpt-image-1 vượt trội hơn Nano Banana(Pro) rất nhiều ở khả năng previz-to-render
Nano Banana giữ nguyên các thành phần previz độ phân giải thấp, còn gpt-image-1 hiểu được tư thế nhân vật và bố cục cảnh rồi nâng cấp chúng lên
Video ví dụ: 3D + Posing + Blocking, bản tái sử dụng set, Gaussian splats, ví dụ bổ sung
Về sau sẽ cần những mô hình có khả năng kiểm soát phong cách, tốc độ và styling dựa trên ảnh tham chiếu
Adobe cũng đang thử nghiệm các tính năng tương tự và đã trình diễn Relighting, chỉnh sửa Image→3D, chỉnh sửa Gaussian, chuyển 3D→Image
Tôi đang tự triển khai các tính năng này thành một công cụ desktop mã nguồn mở bằng Rust
Nếu vào năm 2010 mà có một dịch vụ ghép ảnh do nhân lực Photoshop thực hiện, có lẽ nó đã gây tranh cãi rất lớn
Còn bây giờ là thời đại AI phá vỡ khái niệm bản quyền và tác giả, nên tôi tò mò không biết sẽ bảo vệ nội dung mới như thế nào
Trước đây, gpt từng tái hiện gần như nguyên xi một bức ảnh phong cách hiếm do tôi chụp
Một khi đã công khai thì phải chấp nhận một mức độ bị lạm dụng nào đó. Trường hợp mô hình overfit vào bản gốc vẫn chưa có tiền lệ pháp lý
Tôi đã thử dùng gpt-image-1.5 để tạo sprite map và UV texture map, và cảm giác Megaman Legends hiện lên rất rõ
Ví dụ 1, Ví dụ 2
Tuy nhiên, vì không có mô hình 3D thật nên tôi không chắc đó có phải UV map chính xác hay không. Các phiên bản Nano Banana đầu tiên không làm được kiểu việc này
Có thể dùng những texture như vậy, nhưng độ méo sẽ rất lớn
Cách làm đúng là unwrap model và dùng wireframe UV map làm đầu vào
Có thể xem model Crash thật ở đây
Đã thử nghiệm áp dụng dark theme cho một sản phẩm phần mềm
Gemini/Nano chỉ đổi một vài panel sang màu xám, còn GPT thì theme hóa toàn bộ ứng dụng rất đẹp
Dù vậy, phần thiết kế chi tiết vẫn cần bàn tay của designer
Tôi từng thắc mắc vì sao ảnh ChatGPT lúc nào cũng có tông vàng
Câu pitch sản phẩm “tạo hình ảnh từ những ký ức không tồn tại” nghe có gì đó kỳ quặc
Tôi chủ yếu chỉ dùng cho các công việc thiên về văn bản như lập trình, wiki, toán học
Hiện tượng này khá giống thời filter Snapchat từng bùng nổ. Còn tôi thì thường để chế độ mặc định
Cuối cùng có thể mọi người sẽ cùng đăng ký những cuộc đời ảo, và khi thẻ thanh toán bị từ chối thì mới quay về thực tại
Vì nghe nói mô hình mới hoạt động qua API nên tôi đã cập nhật Golang SDK grail,
nhưng khi gọi thì bị lỗi máy chủ 500. Trong danh sách model cũng không có gpt-image-1.5
Xem ví dụ mã
Trong playground cục bộ của tôi (gpt-image-1-playground), tôi đã sửa để xử lý lỗi 404
Nếu nhập sai tên model thì nó báo “các giá trị được hỗ trợ chỉ là gpt-image-1, gpt-image-1-mini”
Tôi vẫn đang dùng Midjourney. Các mô hình lớn khác thiếu tính sáng tạo về phong cách và chỉ tập trung vào photorealism
Nếu muốn tạo ra một chuỗi có ngữ cảnh chứ không chỉ một ảnh đơn lẻ, thì những khả năng này là bắt buộc
Người ta thường có xu hướng đánh giá giá trị nghệ thuật chỉ qua ‘kỹ thuật render’, và đó là cách nhìn bỏ qua ý nghĩa của sáng tạo văn hóa trong bối cảnh xã hội