Ra mắt ChatGPT Images 2.0

(openai.com)

6 điểm bởi GN⁺ 2026-04-22 | 4 bình luận | Chia sẻ qua WhatsApp

OpenAI đã ra mắt phiên bản thế hệ tiếp theo của mô hình tạo ảnh, và phần giới thiệu cũng không viết bằng chữ trực tiếp mà chỉ dùng văn bản nằm trong các hình ảnh được tạo bằng Images 2.0
Tập trung vào việc tạo ra các kết quả có thể dùng ngay, bao gồm các tác vụ thị giác phức tạp và khả năng dựng văn bản chính xác
Là mô hình hình ảnh đầu tiên có khả năng suy nghĩ (thinking), có thể tìm kiếm web, tạo đồng thời nhiều hình ảnh và tự kiểm chứng đầu ra
Khả năng dựng ký tự phi Latin được cải thiện đáng kể đối với tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal..., giúp việc thiết kế đa ngôn ngữ trở nên thực tế hơn
Hỗ trợ tỷ lệ khung hình linh hoạt từ 3:1 đến 1:3, phản hồi ngay cho nhiều định dạng như banner, poster, màn hình di động
Định vị đây là sự chuyển dịch từ công cụ render sang hệ thống thiết kế chiến lược, và có thể dùng trên toàn bộ ChatGPT, Codex và API

Kỷ nguyên mới của tạo ảnh

Hình ảnh được định nghĩa không chỉ là yếu tố trang trí mà là một ngôn ngữ, dùng để giải thích cơ chế, tạo bầu không khí, kiểm chứng ý tưởng và truyền đạt lập luận
Tiếp nối ChatGPT Images ra mắt 1 năm trước đã chứng minh ảnh AI có thể đẹp và hữu dụng, Images 2.0 là mô hình thế hệ mới xử lý chính xác các tác vụ thị giác phức tạp
Bám sát chỉ dẫn chi tiết, cải thiện mạnh về bố trí chính xác đối tượng và mối quan hệ giữa chúng, cũng như dựng văn bản dày đặc
Bố cục và cảm quan thị giác vượt trội, cho ra kết quả ở mức giống một thiết kế có chủ đích hơn là ảnh do AI tạo ra
Hoạt động chính xác trên nhiều ngôn ngữ và tận dụng kiến thức thị giác lẫn kiến thức thế giới đã mở rộng để tạo ảnh thông minh hơn ngay cả với ít prompt hơn
Mô hình này kết hợp trí tuệ của mô hình suy luận và khả năng hiểu thế giới thị giác của OpenAI, chuyển việc tạo ảnh từ render đơn thuần sang thiết kế chiến lược, từ một công cụ thành hệ thống thị giác
Có mặt từ hôm nay cho toàn bộ người dùng ChatGPT, Codex và API

Độ chính xác và khả năng kiểm soát cao hơn

Images 2.0 mang lại mức độ cụ thể và độ trung thực chưa từng có trong tạo ảnh
Không chỉ hình dung được hình ảnh tinh vi hơn mà còn triển khai hiệu quả, với thế mạnh ở việc tuân thủ chỉ dẫn, giữ nguyên chi tiết yêu cầu và dựng các yếu tố vi mô
Xử lý ở độ phân giải tối đa 2K những thứ mà các mô hình ảnh trước đây khó làm tốt như chữ nhỏ, biểu tượng, thành phần UI, bố cục dày đặc và các ràng buộc phong cách tinh tế
Tạo ra kết quả thực sự có thể dùng ngay, chứ không chỉ là “một hình ảnh na ná”

Tăng cường hỗ trợ văn bản đa ngôn ngữ

Các mô hình trước đây cho hiệu năng ổn định với tiếng Anh và các ngôn ngữ dùng ký tự Latin, nhưng còn yếu trong xử lý ký tự phi Latin ở văn bản phức tạp hoặc dày đặc
Images 2.0 cải thiện khả năng hiểu đa ngôn ngữ, đồng thời đặc biệt nâng cấp mạnh việc dựng văn bản phi Latin cho tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal
Không chỉ dựng chính xác văn bản ngoài tiếng Anh mà còn có thể tạo ra kết quả trôi chảy, tự nhiên về mặt ngôn ngữ
Vượt ra ngoài việc dịch nhãn đơn thuần, mô hình vẫn giữ được tính nhất quán thị giác trong poster, tài liệu giải thích, sơ đồ, truyện tranh nơi ngôn ngữ là một phần của thiết kế
Người dùng có thể tạo visual bằng chính ngôn ngữ họ thực sự sử dụng, giúp tăng khả năng ứng dụng toàn cầu

Độ tinh xảo về phong cách và tính chân thực

Images 2.0 cải thiện đáng kể độ trung thực trên nhiều phong cách thị giác khác nhau
Tính nhất quán được nâng lên ở kết cấu, ánh sáng, bố cục và chi tiết của các ngôn ngữ thị giác đặc trưng như yếu tố nhiếp ảnh (bao gồm cả những khuyết điểm nhỏ làm tăng cảm giác chân thật), khung hình điện ảnh, pixel art, truyện tranh
Tạo ra kết quả phản ánh trung thực phong cách được yêu cầu, thay vì chỉ mô phỏng gần giống
Đặc biệt hữu ích cho prototype game, storyboard, creative marketing và tạo asset cho các phương tiện hay thể loại cụ thể

Hỗ trợ tỷ lệ khung hình linh hoạt

Hỗ trợ dải tỷ lệ khung hình rộng từ 3:1 (ngang) đến 1:3 (dọc)
Có thể tạo ngay kết quả đúng với định dạng cần dùng như banner ngang, slide thuyết trình, poster, màn hình di động, bookmark, social graphic
Có thể chỉ định tỷ lệ mong muốn trong prompt hoặc chọn từ tùy chọn preset để tạo lại ở kích thước mới

Trí tuệ thế giới thực

Images 2.0 phản ánh mức độ hiểu biết về thế giới mới hơn trong việc tạo ảnh, với mốc cắt kiến thức được cập nhật đến tháng 12 năm 2025
Có lợi cho các đầu ra như tài liệu giải thích, bản đồ, đồ họa giáo dục, tóm tắt trực quan, nơi độ chính xác và sự rõ ràng quan trọng không kém yếu tố thẩm mỹ
Nhờ trí tuệ được nâng cấp, mô hình có thể thực hiện quy trình end-to-end từ tổng hợp thông tin, viết copy đến trực quan hóa
- Có cảm quan thiết kế gọn gàng, có tổ chức, biết cân nhắc bố trí khoảng trắng, độ dễ đọc và dòng chảy thông tin
Quảng cáo

Đối tác tư duy thị giác

Khi chọn thinking hoặc mô hình pro, mô hình sẽ dành nhiều thời gian hơn để hiểu và thực thi tác vụ theo hướng agentic
Có thể tìm kiếm thông tin liên quan trên web, chuyển tài liệu được tải lên thành tài liệu giải thích trực quan rõ ràng, và suy luận cấu trúc hình ảnh trước khi tạo
Ở chế độ này, Images 2.0 hoạt động như đối tác tư duy thị giác, giúp giảm đáng kể khối lượng công việc của người dùng từ ý tưởng nháp đến asset hoàn chỉnh
Trong chế độ thinking, có thể tạo đồng thời nhiều hình ảnh khác nhau trong một lần — tính năng đầu tiên trong lịch sử tạo ảnh của ChatGPT
- Hỗ trợ các workflow như loạt trang truyện tranh, định hướng redesign toàn bộ ngôi nhà, họ concept poster, bộ social graphic với nhiều tỷ lệ và ngôn ngữ khác nhau
Thay vì prompt từng ảnh rồi tự ghép thủ công, người dùng có thể yêu cầu tối đa 10 kết quả nhất quán giữ được tính liên tục của nhân vật và đối tượng trong một lần
- Mỗi kết quả sẽ lần lượt được xây dựng dựa trên kết quả trước đó

4 bình luận

j2sus91 2026-04-22

Việc đưa khả năng suy luận vào hình ảnh đã khiến kết quả trở nên cực kỳ ấn tượng.

Tôi chỉ ném vào vài từ khóa liên quan đến mảng kinh doanh mới,
mà nó còn suy luận cả thông điệp cốt lõi/điểm đau rồi hòa vào landing page.

Việc lấy nguyên màu sắc thương hiệu, tông giọng thông điệp thương hiệu, thậm chí cả model từ trang web được bảo dùng làm tham chiếu trước đó thì giờ là chuyện cơ bản rồi.
Ngay cả tiếng Hàn cũng hoàn toàn không bị vỡ chữ, nên có vẻ mức độ ứng dụng sau này sẽ cực kỳ lớn..

Giờ thì sự phát triển của AI đang dần trở nên đáng sợ hơn thật rồi.

kirinonakar 2026-04-22

Quá ấn tượng. Lúc Nano Banana ra mắt tôi cũng đã thấy bất ngờ rồi, mà giờ còn tốt hơn nữa. Có vẻ vì có cạnh tranh nên tốc độ phát triển rất nhanh.

xguru 2026-04-22

Ồ.. xử lý chữ trước đây là kiểu nửa vời, nhưng lần này có vẻ đã mài dao rồi đấy.
Tôi đã biến toàn bộ văn bản trong bài giới thiệu thành hình ảnh.
Có thể cuộn để xem toàn bộ bài viết đều ở dạng hình ảnh.
Phần chữ viết tay ở giữa khá ấn tượng

GN⁺ 2026-04-22

Ý kiến trên Hacker News

Tôi đã thử mẫu mới theo cách này. Tôi dùng gpt-image-2 để tạo một "bức ảnh kiểu Where's Waldo tìm một con gấu mèo cầm bộ đàm ham radio", và mã nằm ở đây. Kết quả là hình này, nhưng thật ra chính tôi cũng không chắc gấu mèo có đang cầm bộ đàm ham radio hay không. Vốn dĩ các bài test kiểu Where's Waldo cũng không khơi được ở tôi sự kiên nhẫn để ngồi tìm đến cùng
- Tôi chạy lại bằng lệnh dùng độ phân giải tối đa và cho kết quả tốt hơn nhiều. Tôi tham khảo kích thước được khuyến nghị trong OpenAI cookbook (liên kết), và kết quả ở đây. Lần này tôi đã tìm thấy cả raccoon, và có vẻ mỗi ảnh tốn khoảng 40 xu
- Tôi xem bức ảnh đó thì cũng thấy biết ơn đấy, nhưng gương mặt con người quá kỳ quái, cảm giác như sẽ xuất hiện trong ác mộng
- Tôi nghĩ prompt này là một bài toán cực kỳ khó chịu đối với các mô hình họ diffusion hiện nay. Vì thế bản thân việc nó dám thử đã thấy đáng nể rồi
- Khi đọc câu "không có đủ kiên nhẫn để tìm đến cùng", tôi thấy cái này hoàn toàn có thể trở thành một benchmark AI mới
- Tôi thấy loại tác vụ này giống như một lĩnh vực mà AI sẽ cứ tiếp tục yếu ở chi tiết có cấu trúc. Nhìn từ xa thì có vẻ ổn, nhưng lại có quá nhiều lỗi khi nhìn gần: gương mặt như đang hét lên, biển chỉ dẫn chỉ cả hai phía cùng lúc, lều cấp cứu không tồn tại, những con chó trông như quái vật. Ngay cả các mẫu quảng bá cũng tương tự, và những ví dụ như giải phẫu hay bảng tuần hoàn cũng sụp đổ khi soi kỹ. Cuối cùng tôi có cảm giác hoài nghi rằng liệu chúng ta có đang tiêu tốn cả đống RAM & GPUs, nước và điện chỉ để tạo ra một bản Where's Waldo còn tệ hơn không
Tôi đã tạo được một prompt rất thú vị để thử khả năng tuân thủ quy tắc của các mô hình ảnh khi thử Nano Banana Pro. Kiểu như: "xếp các Pokémon có số National Pokédex tương ứng với 64 số nguyên tố đầu tiên thành lưới 8x8, rồi vẽ theo phong cách 8-bit, charcoal, Ukiyo-e tùy theo số chữ số của số". Kết quả NBP ở đây thì số, Pokémon và phong cách nhìn chung khá đúng, chỉ có điều cách áp phong cách hơi lười và có tranh cãi rằng ảnh trông như sao chép. Kết quả chạy cùng prompt bằng gpt-2-image high ở đây thì tạo được phong cách sáng tạo hơn và trông nguyên bản hơn, nhưng logic áp phong cách lại theo từng hàng thay vì theo con số, vài Pokémon bị sai, font cũng sai, và phần dưới còn không vuông. Kết quả khá kỳ lạ
- Tôi thấy bài test này thực sự rất xuất sắc, và đồng thời cũng thấy khá buồn cười khi gpt-2-image lại tệ đến mức này. Thà một hình plagiarized kiểu như tìm kiếm rồi copy-paste còn tốt hơn. Có vẻ nó thậm chí không có bước sanity check hay hậu xử lý tối thiểu để kiểm tra xem "đã làm đúng chỉ thị chưa", trong khi các vi phạm ràng buộc phong cách theo số chữ số hẳn là rất dễ phát hiện. Thêm nữa giá lại đắt, nên càng đáng tiếc khi kết quả gần như không dùng được
- Tôi lại tò mò vì sao prompt này được xem là một prompt tốt
Tôi tổng kết rằng nếu tạo ảnh 4096x4096 bằng gemini-3.1-flash-image-preview thì tốn 2.520 token, khoảng $0.151 mỗi ảnh, còn tạo ảnh 3840x2160 bằng gpt-image-2 thì tốn 13.342 token, khoảng $0.4. Vậy nên mô hình này đắt hơn hơn 2 lần so với Gemini
- Tôi thấy so sánh này là apples to oranges. Nó gần như là so trực tiếp bản flash với bản đầy đủ, và ở các chi tiết nhỏ thì bên này cho cảm giác tốt hơn khoảng 5 lần so với flash
Khi thử mô hình tạo ảnh, tôi luôn có một hard prompt hay dùng. Nó nhồi cùng lúc các điều kiện như bàn tay của người thợ đồng hồ già, đồng hồ quả quýt vintage, nước nông, khúc xạ và caustics, giọt nước rơi, khuôn mặt méo mó phản chiếu trên mặt kính, ống kính macro 100mm. Tôi đã đăng các ảnh kết quả lên Google Drive và chạy nhiều lần cả trên web lẫn API, nhưng nhìn chung vẫn không tốt bằng Nano Banana
- Tôi tò mò vì sao điều này lại được xem là một prompt tốt
- Tôi đã cố xem các ảnh được chia sẻ nhưng có vẻ phía host đang bị rate limit, nên muốn báo lại vậy
- Tôi xác nhận là các liên kết trông như bị hỏng
Tôi thấy gpt-image-1.5 của OpenAI và NB2 của Google khá ngang tài ngang sức trên trang so sánh của tôi. Trong đánh giá tập trung vào mức độ bám prompt, cả hai đều có tỷ lệ thành công khoảng 70% ở cả tác vụ tạo và chỉnh sửa, còn về độ hoàn thiện thị giác thì Gemini lúc nào cũng nhỉnh hơn một bậc. Dù vậy, gpt-image-1.5 vẫn là một bước nhảy lớn của OpenAI và đã loại bỏ được khá nhiều vấn đề cố hữu trước đây như cái gọi là "piss filter". Biểu đồ so sánh có thể xem ở phần chỉnh sửa tại đây và phần tạo tại đây. Theo bản cập nhật, gpt-image-2 đã vượt qua bài 9-cánh sao vốn được gọi là model killer của bộ test, và trong benchmark text-to-image đã làm đúng 12 trên 15 bài, hơn mô hình tốt nhất trước đó 1 điểm. Tuy vậy, nó vẫn thất bại với prompt rắn san hô có thứ tự màu nghiêm ngặt, xúc xắc D20 ghi 20 số nguyên tố đầu tiên lên các mặt, và hành tinh kiểu Trái Đất phẳng có người tràn ra mép. So sánh toàn bộ ở All Models, còn nếu chỉ xem các mô hình chính thì ở đây
Tôi đã tổng hợp so sánh giá. GPT Image 2 ở mức Low có giá $0.006 cho 1024x1024, $0.005 cho 1024x1536 và 1536x1024; mức Medium lần lượt là $0.053, $0.041, $0.041; mức High là $0.211, $0.165, $0.165. Trong khi đó GPT Image 1 có mức Low là $0.011, $0.016, $0.016; Medium là $0.042, $0.063, $0.063; High là $0.167, $0.25, $0.25
- Tôi thấy giới hạn độ phân giải lớn như vậy hơi lạ. Tôi không rõ nếu làm ảnh lớn hơn thì chi tiết sẽ sụp đổ khi phóng to, hay chỉ đơn giản là chi phí tăng vọt
- Tôi thấy thú vị ở chỗ với v2, đầu ra lớn lại đắt hơn hình vuông nhỏ, còn ở v1 thì ngược lại. Tôi tò mò vì sao lại có cấu trúc giá như vậy
Lần này tôi xác nhận là nó đã vượt qua bài test phím đàn piano. Ví dụ thành công ở đây, chỉ là nhãn middle C bị sai trong lần thử này. Dù vậy, khi tôi yêu cầu lại thì nó đã sửa được
- Khi NB 2 ra mắt, tôi đã tăng độ khó của bài test này. Tôi đổi màu của toàn bộ accidentals và naturals cho ngược lại, vậy mà nó vẫn làm đúng hoàn hảo; ví dụ ở đây
Tôi cảm thấy sự cải thiện về kết xuất văn bản tiếng Trung thực sự rất rõ ràng và ấn tượng. Dù vậy, ảnh mẫu Wuxi vẫn còn lỗi chính tả, ví dụ chữ 笼 trong 小笼包 đã bị viết sai. Phần "极小中文也清晰可读" cũng có thêm vài lỗi chính tả khác, nhưng không ảnh hưởng nhiều đến việc đọc. Dẫu vậy, vẫn có thể thấy rõ là nó tốt hơn các mô hình tạo ảnh trước đây một khoảng cách lớn
- Tôi tò mò liệu nó có còn tốt hơn cả các mô hình Trung Quốc bản địa hay không. Vì dữ liệu huấn luyện chắc hẳn có nhiều ví dụ tiếng Trung hơn rất nhiều, nên bình thường tôi nghĩ bên đó sẽ tập trung vào điểm này hơn
Tôi nghĩ đây là thời điểm tốt để nhắc tới C2PA. Đây là một tiêu chuẩn chủ động chứng minh nguồn gốc hình ảnh, và OpenAI cũng tham gia. Khi tôi đưa ảnh do AI tạo vào C2PA Viewer, nguồn gốc hiển thị là ChatGPT. Tất nhiên, người dùng có ý đồ xấu có thể xóa metadata để biến nó thành ảnh bình thường, nhưng về lâu dài tôi nghĩ nên coi những hình ảnh không có dấu nguồn gốc như một tín hiệu rủi ro, giống non-https. Có thể xem thêm ở c2pa.org
- Tôi cảm thấy khó có thể xem vấn đề này đơn thuần là hành vi của bad actors. Hầu hết các nền tảng như Instagram, Facebook đều mặc định xóa metadata vì lý do quyền riêng tư, và EXIF có thể chứa thông tin như vị trí, tên tệp, thời gian tạo, thông tin thiết bị. Vì vậy lúc này, vấn đề thực tế lớn hơn đối với việc bảo toàn C2PA dường như không phải là sự thao túng ác ý mà là chính cấu trúc hiện tại, nơi đa số trang web đều xóa metadata khi người dùng tải ảnh lên
- Tôi muốn bổ sung rằng OpenAI ngay từ đầu đã gắn C2PA manifests vào ảnh được tạo ra. Ngoài ra, theo một tiêu chí đánh giá nhỏ mà tôi tự làm, các bộ phát hiện ảnh AI hiện đại dựa trên ML như OmniAID phát hiện ảnh do GPT-Image-2 tạo ra khá tốt. Bài báo liên quan ở đây, và tôi đã tự xây dựng một trình phát hiện ảnh AI chạy on-device bằng cách kết hợp hai thứ đó
Tôi đã dùng mô hình này vài giờ, và thành thật mà nói là khá ấn tượng. Đây là lần đầu tiên tôi cảm thấy một mô hình ảnh thực sự hữu ích cho công việc của mình, đặc biệt là trong việc làm slide PowerPoint và tạo mockup