Ra mắt ChatGPT Images 2.0
(openai.com)- OpenAI đã ra mắt phiên bản thế hệ tiếp theo của mô hình tạo ảnh, và phần giới thiệu cũng không viết bằng chữ trực tiếp mà chỉ dùng văn bản nằm trong các hình ảnh được tạo bằng Images 2.0
- Tập trung vào việc tạo ra các kết quả có thể dùng ngay, bao gồm các tác vụ thị giác phức tạp và khả năng dựng văn bản chính xác
- Là mô hình hình ảnh đầu tiên có khả năng suy nghĩ (thinking), có thể tìm kiếm web, tạo đồng thời nhiều hình ảnh và tự kiểm chứng đầu ra
- Khả năng dựng ký tự phi Latin được cải thiện đáng kể đối với tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal..., giúp việc thiết kế đa ngôn ngữ trở nên thực tế hơn
- Hỗ trợ tỷ lệ khung hình linh hoạt từ 3:1 đến 1:3, phản hồi ngay cho nhiều định dạng như banner, poster, màn hình di động
- Định vị đây là sự chuyển dịch từ công cụ render sang hệ thống thiết kế chiến lược, và có thể dùng trên toàn bộ ChatGPT, Codex và API
Kỷ nguyên mới của tạo ảnh
- Hình ảnh được định nghĩa không chỉ là yếu tố trang trí mà là một ngôn ngữ, dùng để giải thích cơ chế, tạo bầu không khí, kiểm chứng ý tưởng và truyền đạt lập luận
- Tiếp nối ChatGPT Images ra mắt 1 năm trước đã chứng minh ảnh AI có thể đẹp và hữu dụng, Images 2.0 là mô hình thế hệ mới xử lý chính xác các tác vụ thị giác phức tạp
- Bám sát chỉ dẫn chi tiết, cải thiện mạnh về bố trí chính xác đối tượng và mối quan hệ giữa chúng, cũng như dựng văn bản dày đặc
- Bố cục và cảm quan thị giác vượt trội, cho ra kết quả ở mức giống một thiết kế có chủ đích hơn là ảnh do AI tạo ra
- Hoạt động chính xác trên nhiều ngôn ngữ và tận dụng kiến thức thị giác lẫn kiến thức thế giới đã mở rộng để tạo ảnh thông minh hơn ngay cả với ít prompt hơn
- Mô hình này kết hợp trí tuệ của mô hình suy luận và khả năng hiểu thế giới thị giác của OpenAI, chuyển việc tạo ảnh từ render đơn thuần sang thiết kế chiến lược, từ một công cụ thành hệ thống thị giác
- Có mặt từ hôm nay cho toàn bộ người dùng ChatGPT, Codex và API
Độ chính xác và khả năng kiểm soát cao hơn
- Images 2.0 mang lại mức độ cụ thể và độ trung thực chưa từng có trong tạo ảnh
- Không chỉ hình dung được hình ảnh tinh vi hơn mà còn triển khai hiệu quả, với thế mạnh ở việc tuân thủ chỉ dẫn, giữ nguyên chi tiết yêu cầu và dựng các yếu tố vi mô
- Xử lý ở độ phân giải tối đa 2K những thứ mà các mô hình ảnh trước đây khó làm tốt như chữ nhỏ, biểu tượng, thành phần UI, bố cục dày đặc và các ràng buộc phong cách tinh tế
- Tạo ra kết quả thực sự có thể dùng ngay, chứ không chỉ là “một hình ảnh na ná”
Tăng cường hỗ trợ văn bản đa ngôn ngữ
- Các mô hình trước đây cho hiệu năng ổn định với tiếng Anh và các ngôn ngữ dùng ký tự Latin, nhưng còn yếu trong xử lý ký tự phi Latin ở văn bản phức tạp hoặc dày đặc
- Images 2.0 cải thiện khả năng hiểu đa ngôn ngữ, đồng thời đặc biệt nâng cấp mạnh việc dựng văn bản phi Latin cho tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal
- Không chỉ dựng chính xác văn bản ngoài tiếng Anh mà còn có thể tạo ra kết quả trôi chảy, tự nhiên về mặt ngôn ngữ
- Vượt ra ngoài việc dịch nhãn đơn thuần, mô hình vẫn giữ được tính nhất quán thị giác trong poster, tài liệu giải thích, sơ đồ, truyện tranh nơi ngôn ngữ là một phần của thiết kế
- Người dùng có thể tạo visual bằng chính ngôn ngữ họ thực sự sử dụng, giúp tăng khả năng ứng dụng toàn cầu
Độ tinh xảo về phong cách và tính chân thực
- Images 2.0 cải thiện đáng kể độ trung thực trên nhiều phong cách thị giác khác nhau
- Tính nhất quán được nâng lên ở kết cấu, ánh sáng, bố cục và chi tiết của các ngôn ngữ thị giác đặc trưng như yếu tố nhiếp ảnh (bao gồm cả những khuyết điểm nhỏ làm tăng cảm giác chân thật), khung hình điện ảnh, pixel art, truyện tranh
- Tạo ra kết quả phản ánh trung thực phong cách được yêu cầu, thay vì chỉ mô phỏng gần giống
- Đặc biệt hữu ích cho prototype game, storyboard, creative marketing và tạo asset cho các phương tiện hay thể loại cụ thể
Hỗ trợ tỷ lệ khung hình linh hoạt
- Hỗ trợ dải tỷ lệ khung hình rộng từ 3:1 (ngang) đến 1:3 (dọc)
- Có thể tạo ngay kết quả đúng với định dạng cần dùng như banner ngang, slide thuyết trình, poster, màn hình di động, bookmark, social graphic
- Có thể chỉ định tỷ lệ mong muốn trong prompt hoặc chọn từ tùy chọn preset để tạo lại ở kích thước mới
Trí tuệ thế giới thực
- Images 2.0 phản ánh mức độ hiểu biết về thế giới mới hơn trong việc tạo ảnh, với mốc cắt kiến thức được cập nhật đến tháng 12 năm 2025
- Có lợi cho các đầu ra như tài liệu giải thích, bản đồ, đồ họa giáo dục, tóm tắt trực quan, nơi độ chính xác và sự rõ ràng quan trọng không kém yếu tố thẩm mỹ
- Nhờ trí tuệ được nâng cấp, mô hình có thể thực hiện quy trình end-to-end từ tổng hợp thông tin, viết copy đến trực quan hóa
- Có cảm quan thiết kế gọn gàng, có tổ chức, biết cân nhắc bố trí khoảng trắng, độ dễ đọc và dòng chảy thông tin
Đối tác tư duy thị giác
- Khi chọn thinking hoặc mô hình pro, mô hình sẽ dành nhiều thời gian hơn để hiểu và thực thi tác vụ theo hướng agentic
- Có thể tìm kiếm thông tin liên quan trên web, chuyển tài liệu được tải lên thành tài liệu giải thích trực quan rõ ràng, và suy luận cấu trúc hình ảnh trước khi tạo
- Ở chế độ này, Images 2.0 hoạt động như đối tác tư duy thị giác, giúp giảm đáng kể khối lượng công việc của người dùng từ ý tưởng nháp đến asset hoàn chỉnh
- Trong chế độ thinking, có thể tạo đồng thời nhiều hình ảnh khác nhau trong một lần — tính năng đầu tiên trong lịch sử tạo ảnh của ChatGPT
- Hỗ trợ các workflow như loạt trang truyện tranh, định hướng redesign toàn bộ ngôi nhà, họ concept poster, bộ social graphic với nhiều tỷ lệ và ngôn ngữ khác nhau
- Thay vì prompt từng ảnh rồi tự ghép thủ công, người dùng có thể yêu cầu tối đa 10 kết quả nhất quán giữ được tính liên tục của nhân vật và đối tượng trong một lần
- Mỗi kết quả sẽ lần lượt được xây dựng dựa trên kết quả trước đó
4 bình luận
Việc đưa khả năng suy luận vào hình ảnh đã khiến kết quả trở nên cực kỳ ấn tượng.
Tôi chỉ ném vào vài từ khóa liên quan đến mảng kinh doanh mới,
mà nó còn suy luận cả thông điệp cốt lõi/điểm đau rồi hòa vào landing page.
Việc lấy nguyên màu sắc thương hiệu, tông giọng thông điệp thương hiệu, thậm chí cả model từ trang web được bảo dùng làm tham chiếu trước đó thì giờ là chuyện cơ bản rồi.
Ngay cả tiếng Hàn cũng hoàn toàn không bị vỡ chữ, nên có vẻ mức độ ứng dụng sau này sẽ cực kỳ lớn..
Giờ thì sự phát triển của AI đang dần trở nên đáng sợ hơn thật rồi.
Quá ấn tượng. Lúc Nano Banana ra mắt tôi cũng đã thấy bất ngờ rồi, mà giờ còn tốt hơn nữa. Có vẻ vì có cạnh tranh nên tốc độ phát triển rất nhanh.
Ồ.. xử lý chữ trước đây là kiểu nửa vời, nhưng lần này có vẻ đã mài dao rồi đấy.
Tôi đã biến toàn bộ văn bản trong bài giới thiệu thành hình ảnh.
Có thể cuộn để xem toàn bộ bài viết đều ở dạng hình ảnh.
Phần chữ viết tay ở giữa khá ấn tượng
Ý kiến trên Hacker News
gpt-image-2để tạo một "bức ảnh kiểu Where's Waldo tìm một con gấu mèo cầm bộ đàm ham radio", và mã nằm ở đây. Kết quả là hình này, nhưng thật ra chính tôi cũng không chắc gấu mèo có đang cầm bộ đàm ham radio hay không. Vốn dĩ các bài test kiểu Where's Waldo cũng không khơi được ở tôi sự kiên nhẫn để ngồi tìm đến cùnggemini-3.1-flash-image-previewthì tốn 2.520 token, khoảng $0.151 mỗi ảnh, còn tạo ảnh 3840x2160 bằnggpt-image-2thì tốn 13.342 token, khoảng $0.4. Vậy nên mô hình này đắt hơn hơn 2 lần so với Geminigpt-image-1.5của OpenAI và NB2 của Google khá ngang tài ngang sức trên trang so sánh của tôi. Trong đánh giá tập trung vào mức độ bám prompt, cả hai đều có tỷ lệ thành công khoảng 70% ở cả tác vụ tạo và chỉnh sửa, còn về độ hoàn thiện thị giác thì Gemini lúc nào cũng nhỉnh hơn một bậc. Dù vậy,gpt-image-1.5vẫn là một bước nhảy lớn của OpenAI và đã loại bỏ được khá nhiều vấn đề cố hữu trước đây như cái gọi là "piss filter". Biểu đồ so sánh có thể xem ở phần chỉnh sửa tại đây và phần tạo tại đây. Theo bản cập nhật,gpt-image-2đã vượt qua bài 9-cánh sao vốn được gọi là model killer của bộ test, và trong benchmark text-to-image đã làm đúng 12 trên 15 bài, hơn mô hình tốt nhất trước đó 1 điểm. Tuy vậy, nó vẫn thất bại với prompt rắn san hô có thứ tự màu nghiêm ngặt, xúc xắc D20 ghi 20 số nguyên tố đầu tiên lên các mặt, và hành tinh kiểu Trái Đất phẳng có người tràn ra mép. So sánh toàn bộ ở All Models, còn nếu chỉ xem các mô hình chính thì ở đâyGPT-Image-2tạo ra khá tốt. Bài báo liên quan ở đây, và tôi đã tự xây dựng một trình phát hiện ảnh AI chạy on-device bằng cách kết hợp hai thứ đó