12 điểm bởi GN⁺ 2025-03-26 | 3 bình luận | Chia sẻ qua WhatsApp
  • OpenAI từ lâu đã tin rằng tạo ảnh nên là một trong những năng lực cốt lõi của mô hình ngôn ngữ, và dựa trên tầm nhìn đó đã tích hợp bộ tạo ảnh tinh vi và mạnh mẽ nhất vào GPT‑4o
  • Khả năng tạo ảnh của GPT‑4o không chỉ vượt ra ngoài những hình ảnh đẹp mắt mà còn tạo ra kết quả thực sự hữu ích và có giá trị
  • Có thể tạo ra hình ảnh chất lượng cao ở mức độ photorealism, với độ chính xác và tinh vi cao
  • Các năng lực đa phương thức được tích hợp sẵn, cho phép tạo nội dung trực quan bằng cách kết hợp ngôn ngữ, hình ảnh và ngữ cảnh

Tính năng tạo ảnh hữu ích

  • Con người từ các bích họa cổ đại đến infographic hiện đại đã dùng hình ảnh trực quan để truyền đạt thông tin, thuyết phục và phân tích
  • Các mô hình tạo sinh trước đây có thể tạo ra hình ảnh kỳ ảo hoặc ấn tượng, nhưng thường gặp khó với hình ảnh thực dụng để truyền tải thông tin
  • Khả năng tạo ảnh của GPT‑4o có thế mạnh trong việc tạo hình ảnh chính xác về mặt ý nghĩa như logo hay sơ đồ
  • Bao gồm các tính năng nâng cao như dựng văn bản chính xác, tận dụng ngữ cảnh hội thoại của người dùng, và tạo ảnh dựa trên ảnh được tải lên
  • Những tính năng này giúp người dùng tạo ra hình ảnh mong muốn một cách chính xác hơn

Năng lực tạo ảnh được cải thiện

  • Mô hình học phân phối kết hợp giữa ảnh trực tuyến và văn bản để hiểu mối quan hệ giữa hình ảnh và ngôn ngữ, cũng như giữa các hình ảnh với nhau
  • Sau quá trình tinh chỉnh hậu huấn luyện, độ trôi chảy về mặt thị giác được nâng cao, cho phép tạo ảnh hữu ích và nhất quán

Tính năng dựng văn bản

  • Hình ảnh có thể chứa hàng nghìn từ, nhưng chỉ vài đoạn văn bản đúng vị trí cũng có thể tăng cường ý nghĩa
  • GPT‑4o có thể kết hợp ký hiệu hoặc văn bản chính xác vào hình ảnh để dùng như một công cụ giao tiếp trực quan

Tạo ảnh hội thoại

  • GPT‑4o tích hợp tạo ảnh như một chức năng gốc, cho phép tạo và chỉnh sửa ảnh ngay trong dòng hội thoại
  • Ví dụ: khi thiết kế nhân vật game, có thể lặp lại chỉnh sửa trong khi vẫn duy trì nhất quán ngoại hình

Phản ánh chính xác chỉ dẫn

  • GPT‑4o phản ánh chính xác các prompt chi tiết
  • Các hệ thống khác chỉ xử lý được khoảng 5-8 đối tượng, nhưng GPT‑4o có thể tạo nhất quán tối đa 10-20 đối tượng
  • Duy trì chính xác hơn các thuộc tính và mối quan hệ giữa các đối tượng

Học dựa trên ngữ cảnh

  • Phân tích ảnh do người dùng tải lên và phản ánh các chi tiết của ảnh đó vào quá trình tạo ảnh

Kết nối với tri thức thế giới

  • GPT‑4o kết nối tri thức giữa văn bản và hình ảnh để tạo ảnh thông minh và hiệu quả hơn

Photorealism và nhiều phong cách khác nhau

  • Được huấn luyện trên nhiều phong cách hình ảnh khác nhau, cho phép tạo ảnh chân thực và chuyển đổi phong cách

Hạn chế của mô hình

  • Đây không phải là một mô hình hoàn hảo
  • Sau khi phát hành ban đầu, mô hình sẽ tiếp tục được cải thiện dựa trên phản hồi người dùng và dữ liệu

Nỗ lực bảo đảm an toàn

  • Vừa khuyến khích các hoạt động sáng tạo có ích như phát triển game, khám phá lịch sử, giáo dục, vừa duy trì các tiêu chuẩn an toàn nghiêm ngặt
  • Đang áp dụng chính sách chặt chẽ để ngăn chặn việc tạo ra hình ảnh không phù hợp
  • Bảo đảm tính minh bạch thông qua C2PA và công cụ tìm kiếm nội bộ

    • Mọi hình ảnh do GPT‑4o tạo ra đều bao gồm metadata C2PA để làm rõ nguồn gốc
    • Có thể dùng công cụ tìm kiếm nội bộ để xác minh nguồn gốc hình ảnh dựa trên các thuộc tính kỹ thuật
  • Chặn hình ảnh không phù hợp

    • Chặn các yêu cầu tạo hình ảnh vi phạm chính sách như hình ảnh tình dục trẻ em hoặc deepfake
    • Áp dụng các hạn chế nghiêm ngặt hơn với hình ảnh có người thật
    • Vận hành hệ thống chặn trước nghiêm ngặt đối với ảnh khỏa thân và hình ảnh bạo lực
  • Tăng cường an toàn dựa trên suy luận

    • Huấn luyện một LLM dựa trên suy luận hoạt động dựa trên các bản đặc tả chính sách do con người viết
    • Hệ thống này được dùng để nhận diện và giải quyết sự mơ hồ trong chính sách, đồng thời kết hợp với công nghệ đa phương thức để điều chỉnh cả văn bản đầu vào lẫn hình ảnh đầu ra theo tiêu chuẩn chính sách

Khả dụng

  • Từ hôm nay, tính năng này được cung cấp làm bộ tạo ảnh mặc định cho người dùng Plus, Pro, Team và Free
  • Enterprise và Edu sẽ sớm được hỗ trợ
  • Cũng có thể sử dụng trong Sora, còn mô hình DALL·E hiện có vẫn có thể được truy cập qua một GPT riêng
  • Tính năng tạo ảnh qua API sẽ được cung cấp cho nhà phát triển trong vài tuần tới
  • Người dùng có thể tạo ảnh chỉ bằng mô tả mong muốn, đồng thời có thể chỉ định tỷ lệ, màu sắc (mã hex), có nền trong suốt hay không, v.v.
  • Do tạo ảnh có độ chính xác cao, thời gian render có thể mất tới 1 phút

3 bình luận

 
j2sus91 2025-03-26

Có vẻ bản free vẫn chưa thấy, tức là hiện chỉ mở cho Plus, Pro và Team thôi đúng không?

 
laeyoung 2025-03-26

Ở bản Pro, nếu bấm vào dấu ... bên dưới khung chat thì có mục Tạo hình ảnh (đã cập nhật), chắc là cái này rồi.
Nhưng lại không thấy Best of # xuất hiện, nên hơi khó hiểu là đã được áp dụng hay chưa.

 
GN⁺ 2025-03-26
Ý kiến Hacker News
  • Phương thức tạo ảnh mới sử dụng token để suy luận trong không gian pixel thay vì diffusion

    • Ví dụ, có thể yêu cầu vẽ một cuốn sổ tay có bàn cờ caro trống, đặt nước đi đầu tiên rồi tiếp tục theo cách người dùng đánh tiếp
    • Cũng có thể thay đổi phong cách hình vẽ hoặc thực hiện các biến đổi giữ nguyên thông tin như "đổi ban ngày thành ban đêm", "đội mũ vào" v.v.
    • Độ phân giải của mô hình còn hạn chế, nhưng với đà phát triển trong lĩnh vực này, có khả năng sẽ thiết kế ứng dụng từng bước bằng hình ảnh rồi viết mã từ đó
    • Mô hình có thể tiếp tục "suy luận" từ ảnh bên ngoài, nên ngay cả khi kết quả ban đầu không tốt vẫn có thể cải thiện
    • Nếu mô hình trở nên nhanh hơn, có thể hình dung một UI sinh thực thụ tạo frame tiếp theo của ứng dụng dựa trên các sự kiện của LLM
    • Các mô hình diffusion cũng có thể làm những việc tương tự nhanh hơn
  • Giới thiệu 4o Image Generation: trình tạo ảnh tiên tiến nhất

    • Google Gemini 2.5: mô hình AI thông minh nhất
    • Giới thiệu Gemini 2.0: mô hình AI có năng lực nhất
    • Mong xu hướng này biến mất và Apple dùng cách diễn đạt hiệu quả để các công ty khác sao chép thuật ngữ mới
  • Tò mò không hiểu vì sao họ không thêm benchmark với o1

  • Buổi livestream GPT-4o Image Generation của OpenAI khá chậm, mất khoảng 30 giây cho mỗi ảnh

    • Sam Altman giải thích rằng "chậm nhưng ảnh tạo ra xứng đáng"
    • Thay vì cách tiếp cận diffusion, hệ thống tạo rồi giải mã token hình ảnh giống với DALL-E ban đầu
    • Google Gemini có thể tạo và chỉnh sửa ảnh chỉ trong vài giây
    • Hiện vẫn chưa có API, và vì chậm nên dự kiến chi phí sẽ cao hơn mức $0.03+/ảnh của đối thủ
  • Sau khi thử, có thể tạo thiệp mời sinh nhật cho con gái chỉ trong một lần

    • Khớp chính xác các yếu tố và phong cách mong muốn
    • Khi yêu cầu thêm chi tiết như ngày tháng, địa điểm, nó cũng làm rất tốt
    • Các mô hình trước đây còn chưa đạt được một nửa mức đó
  • Thật đáng mừng vì nó không phải kiểu CG/truyện tranh bão hòa quá mức

  • Tò mò có cách nào kiểm tra prompt được xử lý bởi 4o hay Dall-E không

    • Có vẻ như hiện tại prompt vẫn đang được xử lý bởi bên sau
    • Kế hoạch dài hạn là chuyển hoàn toàn sang 4o và đưa Dall-E sang một tab riêng
  • Bài kiểm tra ly rượu vang vẫn thất bại

  • Tò mò không biết trong số nhiều ảnh gắn thẻ "Best of 8" thì thực sự đã được chọn lọc đến mức nào

    • Trong ba ảnh miễn phí, hai ảnh khá ấn tượng còn một ảnh thất bại
  • Có ví dụ về chỉnh sửa lặp lại với mô hình mới

    • Tốt hơn nhiều so với mô hình trước, nhưng vẫn tạo ra cơ thể có quá nhiều ngón tay hoặc quá nhiều cánh tay