5 điểm bởi GN⁺ 12 giờ trước | 4 bình luận | Chia sẻ qua WhatsApp
  • OpenAI đã công bố phiên bản thế hệ tiếp theo của mô hình tạo ảnh, và phần giới thiệu cũng không viết bằng chữ trong bài mà chỉ dùng văn bản nằm trong các hình ảnh được tạo bằng Images 2.0 để giới thiệu
  • Tập trung vào việc tạo ra các kết quả có thể dùng ngay, bao gồm các tác vụ thị giác phức tạp và khả năng kết xuất văn bản chính xác
  • mô hình hình ảnh đầu tiên có khả năng suy nghĩ (thinking), có thể tìm kiếm web, tạo đồng thời nhiều hình ảnh và tự kiểm chứng đầu ra
  • Hiệu năng kết xuất ký tự phi Latin được cải thiện đáng kể với tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal..., giúp việc thiết kế đa ngôn ngữ trở nên thực tế hơn
  • Hỗ trợ tỷ lệ khung hình linh hoạt từ 3:1 đến 1:3, có thể đáp ứng ngay nhiều định dạng như banner, poster, màn hình di động
  • Định vị đây là sự chuyển đổi từ công cụ render sang hệ thống thiết kế chiến lược, có thể dùng trên ChatGPT, Codex và API

Kỷ nguyên mới của tạo ảnh

  • Hình ảnh được định nghĩa không chỉ là yếu tố trang trí mà là một ngôn ngữ, có thể dùng để giải thích cơ chế, tạo bầu không khí, kiểm chứng ý tưởng và truyền đạt lập luận
  • Sau khi ChatGPT Images ra mắt cách đây 1 năm chứng minh rằng ảnh AI có thể vừa đẹp vừa hữu ích, Images 2.0 là mô hình thế hệ tiếp theo xử lý chính xác các tác vụ thị giác phức tạp
  • Bám sát chỉ dẫn chi tiết, cải thiện vượt bậc trong việc đặt đối tượng chính xác, thể hiện quan hệ giữa các đối tượng và kết xuất văn bản dày đặc
  • Bố cục và cảm quan thị giác xuất sắc đến mức đầu ra giống một thiết kế có chủ đích hơn là ảnh do AI tạo ra
  • Hoạt động chính xác với nhiều ngôn ngữ khác nhau, đồng thời tận dụng kiến thức thị giác và hiểu biết về thế giới được mở rộng để tạo ảnh thông minh hơn chỉ với ít prompt hơn
  • Mô hình này kết hợp trí tuệ của mô hình suy luận của OpenAI với khả năng hiểu thế giới bằng thị giác, chuyển việc tạo ảnh từ render đơn thuần sang thiết kế chiến lược, từ một công cụ thành một hệ thống thị giác
  • Có mặt từ hôm nay cho toàn bộ người dùng ChatGPT, CodexAPI

Độ chính xác và khả năng kiểm soát cao hơn

  • Images 2.0 mang lại mức độ cụ thể và độ trung thực chưa từng có trong tạo ảnh
  • Không chỉ hình dung được hình ảnh tinh vi hơn mà còn hiện thực hóa hiệu quả hơn, với thế mạnh ở việc tuân thủ chỉ dẫn, giữ lại chi tiết của yêu cầu và kết xuất các yếu tố nhỏ
  • Xử lý được chữ nhỏ, biểu tượng, thành phần UI, bố cục dày đặc, các ràng buộc phong cách tinh tế vốn là điểm yếu của các mô hình ảnh trước đây, ở độ phân giải lên tới 2K
  • Tạo ra kết quả thực sự có thể dùng ngay, thay vì chỉ là “một hình ảnh na ná”

Tăng cường hỗ trợ văn bản đa ngôn ngữ

  • Các mô hình trước đây cho hiệu năng ổn định với tiếng Anh và các ngôn ngữ dùng chữ Latin, nhưng còn yếu khi xử lý ký tự phi Latin trong các trường hợp văn bản phức tạp hoặc dày đặc
  • Images 2.0 cải thiện khả năng hiểu đa ngôn ngữ, đặc biệt là khả năng kết xuất văn bản phi Latin ở tiếng Nhật, tiếng Hàn, tiếng Trung, tiếng Hindi, tiếng Bengal
  • Không chỉ kết xuất chính xác văn bản không phải tiếng Anh mà còn có thể tạo ra kết quả trôi chảy, tự nhiên về mặt ngôn ngữ
  • Vượt qua mức dịch nhãn đơn thuần, giúp giữ được tính nhất quán thị giác trong poster, tài liệu giải thích, sơ đồ, truyện tranh nơi ngôn ngữ là một phần của thiết kế
  • Người dùng có thể tạo hình ảnh bằng chính ngôn ngữ họ thực sự sử dụng, giúp tăng khả năng ứng dụng toàn cầu

Độ tinh tế về phong cách và tính chân thực

  • Images 2.0 cải thiện mạnh độ trung thực trên nhiều phong cách thị giác khác nhau
  • Tăng tính nhất quán về chất liệu, ánh sáng, bố cục và chi tiết trong các ngôn ngữ hình ảnh đặc thù như đặc điểm của ảnh chụp (bao gồm cả những khiếm khuyết nhỏ làm tăng cảm giác chân thực), khung hình phim, pixel art, truyện tranh
  • Không chỉ xấp xỉ phong cách được yêu cầu mà còn phản ánh nó một cách trung thực
  • Đặc biệt hữu ích cho prototype game, storyboard, marketing creative và tạo asset cho các medium hoặc genre cụ thể

Hỗ trợ tỷ lệ khung hình linh hoạt

  • Hỗ trợ dải tỷ lệ khung hình rộng từ 3:1 (ngang) đến 1:3 (dọc)
  • Có thể tạo ngay kết quả đúng với định dạng cần thiết như banner ngang, slide thuyết trình, poster, màn hình di động, bookmark, social graphic
  • Có thể chỉ định tỷ lệ khung hình mong muốn trong prompt, hoặc chọn từ preset option để tạo lại ở kích thước mới

Trí tuệ về thế giới thực

  • Images 2.0 phản ánh sự hiểu biết về thế giới cập nhật hơn trong quá trình tạo ảnh, với mốc cắt kiến thức được cập nhật đến tháng 12 năm 2025
  • Có lợi cho các đầu ra như tài liệu giải thích, bản đồ, đồ họa giáo dục, tóm tắt trực quan — nơi độ chính xác và sự rõ ràng quan trọng không kém yếu tố thẩm mỹ
  • Nhờ trí tuệ được cải thiện, mô hình có thể thực hiện quy trình end-to-end từ tổng hợp thông tin đến viết copy và trực quan hóa
    • Có cảm quan thiết kế gọn gàng, có tổ chức, biết cân nhắc khoảng trắng, độ dễ đọc và dòng chảy thông tin

Đối tác tư duy thị giác

  • Khi chọn mô hình thinking hoặc pro, mô hình sẽ dành nhiều thời gian hơn để hiểu và thực hiện công việc theo cách agentic
  • Có thể tìm kiếm thông tin liên quan trên web, chuyển tài liệu được tải lên thành tài liệu giải thích trực quan rõ ràng, và suy luận cấu trúc hình ảnh trước khi tạo
  • Ở chế độ này, Images 2.0 hoạt động như một đối tác tư duy thị giác, giúp giảm đáng kể khối lượng công việc từ ý tưởng nháp đến asset hoàn chỉnh
  • Ở chế độ thinking, có thể tạo đồng thời nhiều hình ảnh khác nhau trong một lần — tính năng đầu tiên của ChatGPT image generation
    • Hỗ trợ các workflow như loạt trang truyện tranh, định hướng redesign toàn bộ ngôi nhà, một family concept poster, bộ social graphic với nhiều tỷ lệ khung hình và ngôn ngữ khác nhau
  • Thay vì phải prompt từng ảnh một rồi tự ghép lại, người dùng có thể yêu cầu tối đa 10 kết quả nhất quán giữ được tính liên tục của nhân vật và đối tượng chỉ trong một lần
    • Mỗi kết quả sẽ tuần tự được xây dựng dựa trên kết quả trước đó

4 bình luận

 

Việc đưa khả năng suy luận vào hình ảnh đã khiến kết quả trở nên cực kỳ ấn tượng.

Tôi chỉ ném vào vài từ khóa liên quan đến mảng kinh doanh mới,
mà nó còn suy luận cả thông điệp cốt lõi/điểm đau rồi hòa vào landing page.

Việc lấy nguyên màu sắc thương hiệu, tông giọng thông điệp thương hiệu, thậm chí cả model từ trang web được bảo dùng làm tham chiếu trước đó thì giờ là chuyện cơ bản rồi.
Ngay cả tiếng Hàn cũng hoàn toàn không bị vỡ chữ, nên có vẻ mức độ ứng dụng sau này sẽ cực kỳ lớn..

Giờ thì sự phát triển của AI đang dần trở nên đáng sợ hơn thật rồi.

 
kirinonakar 10 giờ trước

Quá ấn tượng. Lúc Nano Banana ra mắt tôi cũng đã thấy bất ngờ rồi, mà giờ còn tốt hơn nữa. Có vẻ vì có cạnh tranh nên tốc độ phát triển rất nhanh.

 

Ồ.. xử lý chữ trước đây là kiểu nửa vời, nhưng lần này có vẻ đã mài dao rồi đấy.
Tôi đã biến toàn bộ văn bản trong bài giới thiệu thành hình ảnh.
Có thể cuộn để xem toàn bộ bài viết đều ở dạng hình ảnh.
Phần chữ viết tay ở giữa khá ấn tượng

 
Ý kiến trên Hacker News
  • Tôi đã thử mẫu mới theo cách này. Tôi dùng gpt-image-2 để tạo một "bức ảnh kiểu Where's Waldo tìm một con gấu mèo cầm bộ đàm ham radio", và mã nằm ở đây. Kết quả là hình này, nhưng thật ra chính tôi cũng không chắc gấu mèo có đang cầm bộ đàm ham radio hay không. Vốn dĩ các bài test kiểu Where's Waldo cũng không khơi được ở tôi sự kiên nhẫn để ngồi tìm đến cùng
    • Tôi chạy lại bằng lệnh dùng độ phân giải tối đa và cho kết quả tốt hơn nhiều. Tôi tham khảo kích thước được khuyến nghị trong OpenAI cookbook (liên kết), và kết quả ở đây. Lần này tôi đã tìm thấy cả raccoon, và có vẻ mỗi ảnh tốn khoảng 40 xu
    • Tôi xem bức ảnh đó thì cũng thấy biết ơn đấy, nhưng gương mặt con người quá kỳ quái, cảm giác như sẽ xuất hiện trong ác mộng
    • Tôi nghĩ prompt này là một bài toán cực kỳ khó chịu đối với các mô hình họ diffusion hiện nay. Vì thế bản thân việc nó dám thử đã thấy đáng nể rồi
    • Khi đọc câu "không có đủ kiên nhẫn để tìm đến cùng", tôi thấy cái này hoàn toàn có thể trở thành một benchmark AI mới
    • Tôi thấy loại tác vụ này giống như một lĩnh vực mà AI sẽ cứ tiếp tục yếu ở chi tiết có cấu trúc. Nhìn từ xa thì có vẻ ổn, nhưng lại có quá nhiều lỗi khi nhìn gần: gương mặt như đang hét lên, biển chỉ dẫn chỉ cả hai phía cùng lúc, lều cấp cứu không tồn tại, những con chó trông như quái vật. Ngay cả các mẫu quảng bá cũng tương tự, và những ví dụ như giải phẫu hay bảng tuần hoàn cũng sụp đổ khi soi kỹ. Cuối cùng tôi có cảm giác hoài nghi rằng liệu chúng ta có đang tiêu tốn cả đống RAM & GPUs, nước và điện chỉ để tạo ra một bản Where's Waldo còn tệ hơn không
  • Tôi đã tạo được một prompt rất thú vị để thử khả năng tuân thủ quy tắc của các mô hình ảnh khi thử Nano Banana Pro. Kiểu như: "xếp các Pokémon có số National Pokédex tương ứng với 64 số nguyên tố đầu tiên thành lưới 8x8, rồi vẽ theo phong cách 8-bit, charcoal, Ukiyo-e tùy theo số chữ số của số". Kết quả NBP ở đây thì số, Pokémon và phong cách nhìn chung khá đúng, chỉ có điều cách áp phong cách hơi lười và có tranh cãi rằng ảnh trông như sao chép. Kết quả chạy cùng prompt bằng gpt-2-image high ở đây thì tạo được phong cách sáng tạo hơn và trông nguyên bản hơn, nhưng logic áp phong cách lại theo từng hàng thay vì theo con số, vài Pokémon bị sai, font cũng sai, và phần dưới còn không vuông. Kết quả khá kỳ lạ
    • Tôi thấy bài test này thực sự rất xuất sắc, và đồng thời cũng thấy khá buồn cười khi gpt-2-image lại tệ đến mức này. Thà một hình plagiarized kiểu như tìm kiếm rồi copy-paste còn tốt hơn. Có vẻ nó thậm chí không có bước sanity check hay hậu xử lý tối thiểu để kiểm tra xem "đã làm đúng chỉ thị chưa", trong khi các vi phạm ràng buộc phong cách theo số chữ số hẳn là rất dễ phát hiện. Thêm nữa giá lại đắt, nên càng đáng tiếc khi kết quả gần như không dùng được
    • Tôi lại tò mò vì sao prompt này được xem là một prompt tốt
  • Tôi tổng kết rằng nếu tạo ảnh 4096x4096 bằng gemini-3.1-flash-image-preview thì tốn 2.520 token, khoảng $0.151 mỗi ảnh, còn tạo ảnh 3840x2160 bằng gpt-image-2 thì tốn 13.342 token, khoảng $0.4. Vậy nên mô hình này đắt hơn hơn 2 lần so với Gemini
    • Tôi thấy so sánh này là apples to oranges. Nó gần như là so trực tiếp bản flash với bản đầy đủ, và ở các chi tiết nhỏ thì bên này cho cảm giác tốt hơn khoảng 5 lần so với flash
  • Khi thử mô hình tạo ảnh, tôi luôn có một hard prompt hay dùng. Nó nhồi cùng lúc các điều kiện như bàn tay của người thợ đồng hồ già, đồng hồ quả quýt vintage, nước nông, khúc xạ và caustics, giọt nước rơi, khuôn mặt méo mó phản chiếu trên mặt kính, ống kính macro 100mm. Tôi đã đăng các ảnh kết quả lên Google Drive và chạy nhiều lần cả trên web lẫn API, nhưng nhìn chung vẫn không tốt bằng Nano Banana
    • Tôi tò mò vì sao điều này lại được xem là một prompt tốt
    • Tôi đã cố xem các ảnh được chia sẻ nhưng có vẻ phía host đang bị rate limit, nên muốn báo lại vậy
    • Tôi xác nhận là các liên kết trông như bị hỏng
  • Tôi thấy gpt-image-1.5 của OpenAI và NB2 của Google khá ngang tài ngang sức trên trang so sánh của tôi. Trong đánh giá tập trung vào mức độ bám prompt, cả hai đều có tỷ lệ thành công khoảng 70% ở cả tác vụ tạo và chỉnh sửa, còn về độ hoàn thiện thị giác thì Gemini lúc nào cũng nhỉnh hơn một bậc. Dù vậy, gpt-image-1.5 vẫn là một bước nhảy lớn của OpenAI và đã loại bỏ được khá nhiều vấn đề cố hữu trước đây như cái gọi là "piss filter". Biểu đồ so sánh có thể xem ở phần chỉnh sửa tại đây và phần tạo tại đây. Theo bản cập nhật, gpt-image-2 đã vượt qua bài 9-cánh sao vốn được gọi là model killer của bộ test, và trong benchmark text-to-image đã làm đúng 12 trên 15 bài, hơn mô hình tốt nhất trước đó 1 điểm. Tuy vậy, nó vẫn thất bại với prompt rắn san hô có thứ tự màu nghiêm ngặt, xúc xắc D20 ghi 20 số nguyên tố đầu tiên lên các mặt, và hành tinh kiểu Trái Đất phẳng có người tràn ra mép. So sánh toàn bộ ở All Models, còn nếu chỉ xem các mô hình chính thì ở đây
  • Tôi đã tổng hợp so sánh giá. GPT Image 2 ở mức Low có giá $0.006 cho 1024x1024, $0.005 cho 1024x1536 và 1536x1024; mức Medium lần lượt là $0.053, $0.041, $0.041; mức High là $0.211, $0.165, $0.165. Trong khi đó GPT Image 1 có mức Low là $0.011, $0.016, $0.016; Medium là $0.042, $0.063, $0.063; High là $0.167, $0.25, $0.25
    • Tôi thấy giới hạn độ phân giải lớn như vậy hơi lạ. Tôi không rõ nếu làm ảnh lớn hơn thì chi tiết sẽ sụp đổ khi phóng to, hay chỉ đơn giản là chi phí tăng vọt
    • Tôi thấy thú vị ở chỗ với v2, đầu ra lớn lại đắt hơn hình vuông nhỏ, còn ở v1 thì ngược lại. Tôi tò mò vì sao lại có cấu trúc giá như vậy
  • Lần này tôi xác nhận là nó đã vượt qua bài test phím đàn piano. Ví dụ thành công ở đây, chỉ là nhãn middle C bị sai trong lần thử này. Dù vậy, khi tôi yêu cầu lại thì nó đã sửa được
    • Khi NB 2 ra mắt, tôi đã tăng độ khó của bài test này. Tôi đổi màu của toàn bộ accidentals và naturals cho ngược lại, vậy mà nó vẫn làm đúng hoàn hảo; ví dụ ở đây
  • Tôi cảm thấy sự cải thiện về kết xuất văn bản tiếng Trung thực sự rất rõ ràng và ấn tượng. Dù vậy, ảnh mẫu Wuxi vẫn còn lỗi chính tả, ví dụ chữ 笼 trong 小笼包 đã bị viết sai. Phần "极小中文也清晰可读" cũng có thêm vài lỗi chính tả khác, nhưng không ảnh hưởng nhiều đến việc đọc. Dẫu vậy, vẫn có thể thấy rõ là nó tốt hơn các mô hình tạo ảnh trước đây một khoảng cách lớn
    • Tôi tò mò liệu nó có còn tốt hơn cả các mô hình Trung Quốc bản địa hay không. Vì dữ liệu huấn luyện chắc hẳn có nhiều ví dụ tiếng Trung hơn rất nhiều, nên bình thường tôi nghĩ bên đó sẽ tập trung vào điểm này hơn
  • Tôi nghĩ đây là thời điểm tốt để nhắc tới C2PA. Đây là một tiêu chuẩn chủ động chứng minh nguồn gốc hình ảnh, và OpenAI cũng tham gia. Khi tôi đưa ảnh do AI tạo vào C2PA Viewer, nguồn gốc hiển thị là ChatGPT. Tất nhiên, người dùng có ý đồ xấu có thể xóa metadata để biến nó thành ảnh bình thường, nhưng về lâu dài tôi nghĩ nên coi những hình ảnh không có dấu nguồn gốc như một tín hiệu rủi ro, giống non-https. Có thể xem thêm ở c2pa.org
    • Tôi cảm thấy khó có thể xem vấn đề này đơn thuần là hành vi của bad actors. Hầu hết các nền tảng như Instagram, Facebook đều mặc định xóa metadata vì lý do quyền riêng tư, và EXIF có thể chứa thông tin như vị trí, tên tệp, thời gian tạo, thông tin thiết bị. Vì vậy lúc này, vấn đề thực tế lớn hơn đối với việc bảo toàn C2PA dường như không phải là sự thao túng ác ý mà là chính cấu trúc hiện tại, nơi đa số trang web đều xóa metadata khi người dùng tải ảnh lên
    • Tôi muốn bổ sung rằng OpenAI ngay từ đầu đã gắn C2PA manifests vào ảnh được tạo ra. Ngoài ra, theo một tiêu chí đánh giá nhỏ mà tôi tự làm, các bộ phát hiện ảnh AI hiện đại dựa trên ML như OmniAID phát hiện ảnh do GPT-Image-2 tạo ra khá tốt. Bài báo liên quan ở đây, và tôi đã tự xây dựng một trình phát hiện ảnh AI chạy on-device bằng cách kết hợp hai thứ đó
  • Tôi đã dùng mô hình này vài giờ, và thành thật mà nói là khá ấn tượng. Đây là lần đầu tiên tôi cảm thấy một mô hình ảnh thực sự hữu ích cho công việc của mình, đặc biệt là trong việc làm slide PowerPoint và tạo mockup