- OpenAI đã công bố phiên bản thế hệ tiếp theo của mô hình tạo ảnh, và phần giới thiệu cũng không viết bằng chữ trong bài mà chỉ dùng văn bản nằm trong các hình ảnh được tạo bằng Images 2.0 để giới thiệu
- Tập trung vào việc tạo ra các kết quả có thể dùng ngay, bao gồm các tác vụ thị giác phức tạp và khả năng kết xuất văn bản chính xác
- Là mô hình hình ảnh đầu tiên có khả năng suy nghĩ (thinking), có thể tìm kiếm web, tạo đồng thời nhiều hình ảnh và tự kiểm chứng đầu ra
- Hiệu năng kết xuất ký tự phi Latin được cải thiện đáng kể với tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal..., giúp việc thiết kế đa ngôn ngữ trở nên thực tế hơn
- Hỗ trợ tỷ lệ khung hình linh hoạt từ 3:1 đến 1:3, có thể đáp ứng ngay nhiều định dạng như banner, poster, màn hình di động
- Định vị đây là sự chuyển đổi từ công cụ render sang hệ thống thiết kế chiến lược, có thể dùng trên ChatGPT, Codex và API
Kỷ nguyên mới của tạo ảnh
- Hình ảnh được định nghĩa không chỉ là yếu tố trang trí mà là một ngôn ngữ, có thể dùng để giải thích cơ chế, tạo bầu không khí, kiểm chứng ý tưởng và truyền đạt lập luận
- Sau khi ChatGPT Images ra mắt cách đây 1 năm chứng minh rằng ảnh AI có thể vừa đẹp vừa hữu ích, Images 2.0 là mô hình thế hệ tiếp theo xử lý chính xác các tác vụ thị giác phức tạp
- Bám sát chỉ dẫn chi tiết, cải thiện vượt bậc trong việc đặt đối tượng chính xác, thể hiện quan hệ giữa các đối tượng và kết xuất văn bản dày đặc
- Bố cục và cảm quan thị giác xuất sắc đến mức đầu ra giống một thiết kế có chủ đích hơn là ảnh do AI tạo ra
- Hoạt động chính xác với nhiều ngôn ngữ khác nhau, đồng thời tận dụng kiến thức thị giác và hiểu biết về thế giới được mở rộng để tạo ảnh thông minh hơn chỉ với ít prompt hơn
- Mô hình này kết hợp trí tuệ của mô hình suy luận của OpenAI với khả năng hiểu thế giới bằng thị giác, chuyển việc tạo ảnh từ render đơn thuần sang thiết kế chiến lược, từ một công cụ thành một hệ thống thị giác
- Có mặt từ hôm nay cho toàn bộ người dùng ChatGPT, Codex và API
Độ chính xác và khả năng kiểm soát cao hơn
- Images 2.0 mang lại mức độ cụ thể và độ trung thực chưa từng có trong tạo ảnh
- Không chỉ hình dung được hình ảnh tinh vi hơn mà còn hiện thực hóa hiệu quả hơn, với thế mạnh ở việc tuân thủ chỉ dẫn, giữ lại chi tiết của yêu cầu và kết xuất các yếu tố nhỏ
- Xử lý được chữ nhỏ, biểu tượng, thành phần UI, bố cục dày đặc, các ràng buộc phong cách tinh tế vốn là điểm yếu của các mô hình ảnh trước đây, ở độ phân giải lên tới 2K
- Tạo ra kết quả thực sự có thể dùng ngay, thay vì chỉ là “một hình ảnh na ná”
Tăng cường hỗ trợ văn bản đa ngôn ngữ
- Các mô hình trước đây cho hiệu năng ổn định với tiếng Anh và các ngôn ngữ dùng chữ Latin, nhưng còn yếu khi xử lý ký tự phi Latin trong các trường hợp văn bản phức tạp hoặc dày đặc
- Images 2.0 cải thiện khả năng hiểu đa ngôn ngữ, đặc biệt là khả năng kết xuất văn bản phi Latin ở tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal
- Không chỉ kết xuất chính xác văn bản không phải tiếng Anh mà còn có thể tạo ra kết quả trôi chảy, tự nhiên về mặt ngôn ngữ
- Vượt qua mức dịch nhãn đơn thuần, giúp giữ được tính nhất quán thị giác trong poster, tài liệu giải thích, sơ đồ, truyện tranh nơi ngôn ngữ là một phần của thiết kế
- Người dùng có thể tạo hình ảnh bằng chính ngôn ngữ họ thực sự sử dụng, giúp tăng khả năng ứng dụng toàn cầu
Độ tinh tế về phong cách và tính chân thực
- Images 2.0 cải thiện mạnh độ trung thực trên nhiều phong cách thị giác khác nhau
- Tăng tính nhất quán về chất liệu, ánh sáng, bố cục và chi tiết trong các ngôn ngữ hình ảnh đặc thù như đặc điểm của ảnh chụp (bao gồm cả những khiếm khuyết nhỏ làm tăng cảm giác chân thực), khung hình phim, pixel art, truyện tranh
- Không chỉ xấp xỉ phong cách được yêu cầu mà còn phản ánh nó một cách trung thực
- Đặc biệt hữu ích cho prototype game, storyboard, marketing creative và tạo asset cho các medium hoặc genre cụ thể
Hỗ trợ tỷ lệ khung hình linh hoạt
- Hỗ trợ dải tỷ lệ khung hình rộng từ 3:1 (ngang) đến 1:3 (dọc)
- Có thể tạo ngay kết quả đúng với định dạng cần thiết như banner ngang, slide thuyết trình, poster, màn hình di động, bookmark, social graphic
- Có thể chỉ định tỷ lệ khung hình mong muốn trong prompt, hoặc chọn từ preset option để tạo lại ở kích thước mới
Trí tuệ về thế giới thực
- Images 2.0 phản ánh sự hiểu biết về thế giới cập nhật hơn trong quá trình tạo ảnh, với mốc cắt kiến thức được cập nhật đến tháng 12 năm 2025
- Có lợi cho các đầu ra như tài liệu giải thích, bản đồ, đồ họa giáo dục, tóm tắt trực quan — nơi độ chính xác và sự rõ ràng quan trọng không kém yếu tố thẩm mỹ
- Nhờ trí tuệ được cải thiện, mô hình có thể thực hiện quy trình end-to-end từ tổng hợp thông tin đến viết copy và trực quan hóa
- Có cảm quan thiết kế gọn gàng, có tổ chức, biết cân nhắc khoảng trắng, độ dễ đọc và dòng chảy thông tin
Đối tác tư duy thị giác
- Khi chọn mô hình thinking hoặc pro, mô hình sẽ dành nhiều thời gian hơn để hiểu và thực hiện công việc theo cách agentic
- Có thể tìm kiếm thông tin liên quan trên web, chuyển tài liệu được tải lên thành tài liệu giải thích trực quan rõ ràng, và suy luận cấu trúc hình ảnh trước khi tạo
- Ở chế độ này, Images 2.0 hoạt động như một đối tác tư duy thị giác, giúp giảm đáng kể khối lượng công việc từ ý tưởng nháp đến asset hoàn chỉnh
- Ở chế độ thinking, có thể tạo đồng thời nhiều hình ảnh khác nhau trong một lần — tính năng đầu tiên của ChatGPT image generation
- Hỗ trợ các workflow như loạt trang truyện tranh, định hướng redesign toàn bộ ngôi nhà, một family concept poster, bộ social graphic với nhiều tỷ lệ khung hình và ngôn ngữ khác nhau
- Thay vì phải prompt từng ảnh một rồi tự ghép lại, người dùng có thể yêu cầu tối đa 10 kết quả nhất quán giữ được tính liên tục của nhân vật và đối tượng chỉ trong một lần
- Mỗi kết quả sẽ tuần tự được xây dựng dựa trên kết quả trước đó
4 bình luận
Việc đưa khả năng suy luận vào hình ảnh đã khiến kết quả trở nên cực kỳ ấn tượng.
Tôi chỉ ném vào vài từ khóa liên quan đến mảng kinh doanh mới,
mà nó còn suy luận cả thông điệp cốt lõi/điểm đau rồi hòa vào landing page.
Việc lấy nguyên màu sắc thương hiệu, tông giọng thông điệp thương hiệu, thậm chí cả model từ trang web được bảo dùng làm tham chiếu trước đó thì giờ là chuyện cơ bản rồi.
Ngay cả tiếng Hàn cũng hoàn toàn không bị vỡ chữ, nên có vẻ mức độ ứng dụng sau này sẽ cực kỳ lớn..
Giờ thì sự phát triển của AI đang dần trở nên đáng sợ hơn thật rồi.
Quá ấn tượng. Lúc Nano Banana ra mắt tôi cũng đã thấy bất ngờ rồi, mà giờ còn tốt hơn nữa. Có vẻ vì có cạnh tranh nên tốc độ phát triển rất nhanh.
Ồ.. xử lý chữ trước đây là kiểu nửa vời, nhưng lần này có vẻ đã mài dao rồi đấy.
Tôi đã biến toàn bộ văn bản trong bài giới thiệu thành hình ảnh.
Có thể cuộn để xem toàn bộ bài viết đều ở dạng hình ảnh.
Phần chữ viết tay ở giữa khá ấn tượng
Ý kiến trên Hacker News
gpt-image-2để tạo một "bức ảnh kiểu Where's Waldo tìm một con gấu mèo cầm bộ đàm ham radio", và mã nằm ở đây. Kết quả là hình này, nhưng thật ra chính tôi cũng không chắc gấu mèo có đang cầm bộ đàm ham radio hay không. Vốn dĩ các bài test kiểu Where's Waldo cũng không khơi được ở tôi sự kiên nhẫn để ngồi tìm đến cùnggemini-3.1-flash-image-previewthì tốn 2.520 token, khoảng $0.151 mỗi ảnh, còn tạo ảnh 3840x2160 bằnggpt-image-2thì tốn 13.342 token, khoảng $0.4. Vậy nên mô hình này đắt hơn hơn 2 lần so với Geminigpt-image-1.5của OpenAI và NB2 của Google khá ngang tài ngang sức trên trang so sánh của tôi. Trong đánh giá tập trung vào mức độ bám prompt, cả hai đều có tỷ lệ thành công khoảng 70% ở cả tác vụ tạo và chỉnh sửa, còn về độ hoàn thiện thị giác thì Gemini lúc nào cũng nhỉnh hơn một bậc. Dù vậy,gpt-image-1.5vẫn là một bước nhảy lớn của OpenAI và đã loại bỏ được khá nhiều vấn đề cố hữu trước đây như cái gọi là "piss filter". Biểu đồ so sánh có thể xem ở phần chỉnh sửa tại đây và phần tạo tại đây. Theo bản cập nhật,gpt-image-2đã vượt qua bài 9-cánh sao vốn được gọi là model killer của bộ test, và trong benchmark text-to-image đã làm đúng 12 trên 15 bài, hơn mô hình tốt nhất trước đó 1 điểm. Tuy vậy, nó vẫn thất bại với prompt rắn san hô có thứ tự màu nghiêm ngặt, xúc xắc D20 ghi 20 số nguyên tố đầu tiên lên các mặt, và hành tinh kiểu Trái Đất phẳng có người tràn ra mép. So sánh toàn bộ ở All Models, còn nếu chỉ xem các mô hình chính thì ở đâyGPT-Image-2tạo ra khá tốt. Bài báo liên quan ở đây, và tôi đã tự xây dựng một trình phát hiện ảnh AI chạy on-device bằng cách kết hợp hai thứ đó