3 điểm bởi GN⁺ 2025-12-17 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tính năng tạo ảnh của ChatGPT vừa được nâng cấp mới, mang lại khả năng chỉnh sửa chính xác hơn và tốc độ tạo nhanh hơn
  • Mô hình GPT‑Image‑1.5 bám sát chỉ dẫn văn bản hơn, đồng thời có thể chỉnh sửa mà vẫn giữ được độ giống nhân vật cùng ánh sáng và bố cục
  • Thông qua giao diện thanh bên Images mới, hỗ trợ kiểu dáng cài sẵn, prompt đang thịnh hành và tính năng tái sử dụng ngoại hình
  • Trên API cũng có cùng các cải tiến hiệu năng, đồng thời giảm 20% chi phí, phù hợp để tạo logo thương hiệu và hình ảnh sản phẩm
  • Bản cập nhật này được triển khai ngay cho tất cả người dùng ChatGPT và API, cải thiện đáng kể tính thực dụng và chất lượng của việc tạo ảnh

Giới thiệu GPT‑Image‑1.5

  • Công bố phiên bản mới của ChatGPT Images dựa trên mô hình tạo ảnh mạnh mẽ nhất
    • Bám sát chỉ dẫn văn bản hơn và có thể chỉnh sửa trong khi vẫn giữ được các chi tiết như độ giống khuôn mặt
    • Tốc độ tạo ảnh nhanh hơn tối đa 4 lần, nâng cao hiệu quả thử nghiệm lặp lại và khám phá ý tưởng
  • Mô hình mang lại biến đổi giàu biểu đạt, kết xuất văn bản dày đặc và kết quả tự nhiên
    • Hỗ trợ từ chỉnh sửa nhỏ đến tái cấu trúc hoàn toàn, đồng thời có thể tạo nhanh bằng cách chọn kiểu dáng cài sẵn
  • Đang được triển khai dần cho toàn bộ người dùng ChatGPT và được cung cấp dưới tên GPT‑Image‑1.5 trên API

Kết quả phù hợp với ý định của người dùng

  • Mô hình chỉ chỉnh sửa phần được yêu cầu, đồng thời duy trì nhất quán ánh sáng, bố cục và độ giống nhân vật
  • Nhờ đó, đạt được mức độ khớp cao trong chỉnh sửa ảnh, mô phỏng trang phục và kiểu tóc, bộ lọc phong cách, chuyển đổi ý tưởng
  • ChatGPT có thể hoạt động như một studio sáng tạo di động, vừa thực hiện chỉnh sửa thực dụng vừa tái cấu trúc mang tính nghệ thuật
    • Hỗ trợ nhiều kiểu chỉnh sửa khác nhau (thêm, xóa, kết hợp, pha trộn, v.v.)
    • Tăng cường khả năng biến đổi sáng tạo để thêm các yếu tố như văn bản và bố cục
    • So với GPT Image 1.0, khả năng hiểu chỉ dẫn được cải thiện, cho phép chỉnh sửa tinh vi hơn
    • Chất lượng kết xuất văn bản dày đặc và cỡ nhỏ được cải thiện

Không gian tạo ảnh mới

  • Giới thiệu thanh bên chuyên dụng Images trong ChatGPT để rút ngắn quá trình khám phá và tạo ảnh
    • Bao gồm bộ lọc cài sẵn, prompt đang thịnh hành và tính năng tái sử dụng ngoại hình
    • Có thể sử dụng lặp lại chỉ với một lần tải lên mà không cần dùng lại camera roll
  • Tốc độ tạo ảnh được cải thiện tối đa 4 lần, có thể tạo nhiều ảnh cùng lúc
  • Cung cấp kết quả phù hợp với tầm nhìn của người dùng từ chỉnh sửa nhỏ đến tái cấu trúc hoàn toàn

Cải thiện chất lượng bổ sung

  • Cải thiện chất lượng có thể dùng ngay như thể hiện nhiều khuôn mặt nhỏ, kết xuất kết quả tự nhiên
  • Ví dụ: tái hiện chân thực khung cảnh đường phố London thập niên 1970, với tiêu điểm chi tiết và biểu đạt nhân vật được nâng cao

Điểm cải thiện và giới hạn

  • Xác nhận cải thiện hiệu năng rõ rệt trong nhiều trường hợp so với phiên bản đầu
  • Tuy vậy, một số kết quả vẫn chưa hoàn hảo và xử lý nhiều khuôn mặt, xử lý đa ngôn ngữ vẫn còn dư địa để cải thiện

Cung cấp GPT Image 1.5 qua API

  • Phiên bản API bao gồm các cải tiến tương tự như ChatGPT Images
    • Duy trì tính nhất quán của logo thương hiệu và hình ảnh chủ đạo
    • Phù hợp để tạo ảnh cho marketing và thương mại điện tử
  • Chi phí đầu vào và đầu ra giảm 20%, cho phép tạo nhiều ảnh hơn với cùng ngân sách
  • Có thể trải nghiệm trong OpenAI Playground, gallery và hướng dẫn prompt
  • Các công ty như Wix, Canva, Figma, Envato đã sử dụng
    • Wix đánh giá rằng đây là “tạo ảnh chất lượng cao, độ nhất quán cao hỗ trợ quy trình sản xuất nhanh”

Phát hành và triển khai

  • Mô hình ChatGPT Images mới được triển khai ngay tới mọi người dùng ChatGPT và API trên toàn thế giới
  • Có thể sử dụng mà không cần chọn mô hình riêng, còn phiên bản trước được duy trì dưới dạng Custom GPT
  • OpenAI đánh giá bản cập nhật này là một bước tiến quan trọng trong sự phát triển của công nghệ tạo ảnh
    • Trong tương lai dự kiến sẽ có thêm các cải tiến như chỉnh sửa tinh vi hơn và hỗ trợ đa ngôn ngữ

1 bình luận

 
GN⁺ 2025-12-17
Ý kiến trên Hacker News
  • Chia sẻ kết quả của gpt-image 1.5 trên trang GenAI Showdown
    OpenAI vẫn rất mạnh về khả năng hiểu prompt, nhưng độ trung thực (fidelity) của hình ảnh trước đây còn yếu. Bản cập nhật lần này đã cải thiện khá nhiều điểm yếu đó
    Đặc biệt, mô hình xử lý tốt chỉnh sửa cục bộ (localized edit) mà không làm hỏng tổng thể thẩm mỹ. Điểm số đã tăng gấp đôi từ 4/12 lên 8/12, và đây là mô hình duy nhất vượt qua được “Giraffe prompt”
    Khả năng điều khiển (steerability) của mô hình cũng cao, ở mức khoảng 90%
    Các tính năng mới được bổ sung gồm phần outtakes cho từng mô hình, thêm các mô hình REVE và Flux.2 Dev, cùng hệ thống chấm điểm dựa trên trọng số
    Nếu muốn so sánh ba mô hình (gpt-image-1, gpt-image-1.5, NB Pro), xem liên kết này

  • Đang chuẩn bị một bài blog tổng hợp các thử nghiệm liên quan đến Nano Banana
    Khi thử mô hình ChatGPT Image mới, thấy nó kém hơn khá nhiều so với Nano Banana Pro, nhưng vẫn tốt hơn Nano Banana bản thường
    Giá cả chưa rõ ràng, nhưng có vẻ gpt-image-1.5 rẻ hơn mô hình cũ khoảng 20%
    Điểm thú vị là các trường hợp tạo lưới (grid generation). NBP bị vỡ tính nhất quán của prompt từ mức 4x4 trở lên, còn OpenAI đã thử một ví dụ 6x6, điều này khá ấn tượng

    • Hôm nay sẽ thử chạy gpt-image-1.5 trên GenAI Showdown của tôi
      Trong lúc đó, có thể xem các kết quả ấn tượng của NB Pro ở blog này
      NB Pro đã cho ra những kết quả đáng kinh ngạc như ghép trò chơi xếp hình jigsaw chưa từng thấy, ước lượng địa hình 3D, hay biến cửa sổ thành gương
    • Sau khi tự thử GPT1.5, tôi thấy chất lượng hình ảnh tương đương NBP nhưng độ nhất quán với promptkhả năng hiểu world model kém hơn
      Ví dụ, khi yêu cầu hai người chèo thuyền, nó làm chiếc thuyền nhỏ đến mức gần như không đủ chỗ ngồi
      Ngoài ra, mỗi lần đưa prompt chỉnh sửa thì ngữ cảnh hội thoại trước đó lại biến mất, lỗi này rất bất tiện
      Để có kết quả tự nhiên hơn, tôi thêm các cụm như “shaky amateur smartphone photo” vào đầu prompt
      Có thể xem thêm phản ứng liên quan trong tweet này
    • Với hơn 10 năm làm phim, tôi rất cần một công cụ dàn dựng cảnh nhất quán
      gpt-image-1 vượt trội hơn Nano Banana(Pro) rất nhiều ở khả năng previz-to-render
      Nano Banana giữ nguyên các thành phần previz độ phân giải thấp, còn gpt-image-1 hiểu được tư thế nhân vật và bố cục cảnh rồi nâng cấp chúng lên
      Video ví dụ: 3D + Posing + Blocking, bản tái sử dụng set, Gaussian splats, ví dụ bổ sung
      Về sau sẽ cần những mô hình có khả năng kiểm soát phong cách, tốc độstyling dựa trên ảnh tham chiếu
      Adobe cũng đang thử nghiệm các tính năng tương tự và đã trình diễn Relighting, chỉnh sửa Image→3D, chỉnh sửa Gaussian, chuyển 3D→Image
      Tôi đang tự triển khai các tính năng này thành một công cụ desktop mã nguồn mở bằng Rust
    • Có người phản hồi rằng các thử nghiệm này rất thú vị. Nhờ vậy mà cách viết prompt của họ được cải thiện và mức kỳ vọng cũng được điều chỉnh thực tế hơn
  • Nếu vào năm 2010 mà có một dịch vụ ghép ảnh do nhân lực Photoshop thực hiện, có lẽ nó đã gây tranh cãi rất lớn
    Còn bây giờ là thời đại AI phá vỡ khái niệm bản quyền và tác giả, nên tôi tò mò không biết sẽ bảo vệ nội dung mới như thế nào
    Trước đây, gpt từng tái hiện gần như nguyên xi một bức ảnh phong cách hiếm do tôi chụp

    • Việc dùng ảnh tham chiếu là thông lệ tiêu chuẩn của ngành nghệ thuật số. Tuy vậy, với AI thì có nguy cơ sao chép quá giống
    • Muốn bảo vệ nội dung thì cách duy nhất là air gap, tức là không đưa nó lên Internet
      Một khi đã công khai thì phải chấp nhận một mức độ bị lạm dụng nào đó. Trường hợp mô hình overfit vào bản gốc vẫn chưa có tiền lệ pháp lý
    • Có lẽ chúng ta đang bước vào thời kỳ hậu bản quyền. Luật rồi sẽ theo sau
    • Đặt ra câu hỏi: nếu ai đó sao chép tác phẩm của tôi nhưng nhờ vậy lại có rất nhiều người được xem nó, thì điều đó có nhất thiết là xấu không
  • Tôi đã thử dùng gpt-image-1.5 để tạo sprite map và UV texture map, và cảm giác Megaman Legends hiện lên rất rõ
    Ví dụ 1, Ví dụ 2
    Tuy nhiên, vì không có mô hình 3D thật nên tôi không chắc đó có phải UV map chính xác hay không. Các phiên bản Nano Banana đầu tiên không làm được kiểu việc này

    • Nói rõ thì đây không phải UV map thật. Ví dụ như phần lưng của model Crash bị thiếu
      Có thể dùng những texture như vậy, nhưng độ méo sẽ rất lớn
      Cách làm đúng là unwrap model và dùng wireframe UV map làm đầu vào
      Có thể xem model Crash thật ở đây
  • Đã thử nghiệm áp dụng dark theme cho một sản phẩm phần mềm
    Gemini/Nano chỉ đổi một vài panel sang màu xám, còn GPT thì theme hóa toàn bộ ứng dụng rất đẹp
    Dù vậy, phần thiết kế chi tiết vẫn cần bàn tay của designer

  • Tôi từng thắc mắc vì sao ảnh ChatGPT lúc nào cũng có tông vàng

    • Đây là hiện tượng xuất hiện từ một thời điểm nhất định. Có vẻ nó chịu ảnh hưởng từ fine-tuning bằng học tăng cường liên quan đến cơn sốt phong cách Ghibli
    • Tôi đoán OpenAI có thể đã tính sai phần chuẩn hóa ảnh. Ở mô hình mới lần này thì hiện tượng đó đã biến mất
    • Codec Avatars của Meta cũng từng gặp vấn đề tương tự. Họ thu thập dữ liệu bằng thiết bị trị giá hàng triệu đô, nhưng do hiệu chuẩn camera thất bại nên ảnh bị ngả xanh
    • Một giả thuyết khác là hiệu ứng này đến từ “Mexico filter” thường thấy trong phim, đã thấm vào dữ liệu huấn luyện
    • Khi tinh chỉnh phong cách dựa trên sở thích của con người, một thiên lệch vàng rất nhẹ đã xuất hiện, và càng chỉnh sửa lặp lại thì thiên lệch đó càng tích lũy
  • Câu pitch sản phẩm “tạo hình ảnh từ những ký ức không tồn tại” nghe có gì đó kỳ quặc

    • Tôi cũng thấy vậy, nhưng nếu nhìn vào nghiên cứu thị trường thì tạo ảnh là một mảng rất được ưa chuộng
      Tôi chủ yếu chỉ dùng cho các công việc thiên về văn bản như lập trình, wiki, toán học
      Hiện tượng này khá giống thời filter Snapchat từng bùng nổ. Còn tôi thì thường để chế độ mặc định
    • Nếu dùng prompt đó để tạo ra động vật origami, có lẽ còn rợn hơn nữa
    • Một ngày nào đó, diễn viên có thể bán hình ảnh của chính mình để tạo ra ảnh giả
      Cuối cùng có thể mọi người sẽ cùng đăng ký những cuộc đời ảo, và khi thẻ thanh toán bị từ chối thì mới quay về thực tại
  • Vì nghe nói mô hình mới hoạt động qua API nên tôi đã cập nhật Golang SDK grail,
    nhưng khi gọi thì bị lỗi máy chủ 500. Trong danh sách model cũng không có gpt-image-1.5
    Xem ví dụ mã

    • Thực tế là hiện vẫn chưa dùng được qua API. Ngay cả trong Image Playground mà OpenAI liên kết cũng không thấy nó
      Trong playground cục bộ của tôi (gpt-image-1-playground), tôi đã sửa để xử lý lỗi 404
      • Tôi cũng đã thử và gặp cùng lỗi 500.
        Nếu nhập sai tên model thì nó báo “các giá trị được hỗ trợ chỉ là gpt-image-1, gpt-image-1-mini”
      • Có vẻ đang rollout dần, và phía backend cũng vẫn chưa xác nhận được
  • Tôi vẫn đang dùng Midjourney. Các mô hình lớn khác thiếu tính sáng tạo về phong cách và chỉ tập trung vào photorealism

    • Tôi không rõ bản cập nhật gần đây của Midjourney ra sao, nhưng độ nhất quán phong cáchkhả năng giữ nguyên nhân vật là rất quan trọng
      Nếu muốn tạo ra một chuỗi có ngữ cảnh chứ không chỉ một ảnh đơn lẻ, thì những khả năng này là bắt buộc
    • Có thể xem hiện tượng này là khác biệt giữa “mô hình có chính kiến” và “mô hình để người dùng lựa chọn”. Loại đầu, nếu làm tốt, sẽ có lợi thế
    • Cũng có người phản ứng rằng điều này thật đáng kinh ngạc, và hỏi liệu có gallery nào tập hợp các ảnh liên quan không
    • Xu hướng này là một vấn đề văn hóa đã tồn tại từ trước cả khi có tạo ảnh.
      Người ta thường có xu hướng đánh giá giá trị nghệ thuật chỉ qua ‘kỹ thuật render’, và đó là cách nhìn bỏ qua ý nghĩa của sáng tạo văn hóa trong bối cảnh xã hội