- OpenAI từ lâu đã tin rằng tạo ảnh nên là một trong những năng lực cốt lõi của mô hình ngôn ngữ, và dựa trên tầm nhìn đó đã tích hợp bộ tạo ảnh tinh vi và mạnh mẽ nhất vào GPT‑4o
- Khả năng tạo ảnh của GPT‑4o không chỉ vượt ra ngoài những hình ảnh đẹp mắt mà còn tạo ra kết quả thực sự hữu ích và có giá trị
- Có thể tạo ra hình ảnh chất lượng cao ở mức độ photorealism, với độ chính xác và tinh vi cao
- Các năng lực đa phương thức được tích hợp sẵn, cho phép tạo nội dung trực quan bằng cách kết hợp ngôn ngữ, hình ảnh và ngữ cảnh
Tính năng tạo ảnh hữu ích
- Con người từ các bích họa cổ đại đến infographic hiện đại đã dùng hình ảnh trực quan để truyền đạt thông tin, thuyết phục và phân tích
- Các mô hình tạo sinh trước đây có thể tạo ra hình ảnh kỳ ảo hoặc ấn tượng, nhưng thường gặp khó với hình ảnh thực dụng để truyền tải thông tin
- Khả năng tạo ảnh của GPT‑4o có thế mạnh trong việc tạo hình ảnh chính xác về mặt ý nghĩa như logo hay sơ đồ
- Bao gồm các tính năng nâng cao như dựng văn bản chính xác, tận dụng ngữ cảnh hội thoại của người dùng, và tạo ảnh dựa trên ảnh được tải lên
- Những tính năng này giúp người dùng tạo ra hình ảnh mong muốn một cách chính xác hơn
Năng lực tạo ảnh được cải thiện
- Mô hình học phân phối kết hợp giữa ảnh trực tuyến và văn bản để hiểu mối quan hệ giữa hình ảnh và ngôn ngữ, cũng như giữa các hình ảnh với nhau
- Sau quá trình tinh chỉnh hậu huấn luyện, độ trôi chảy về mặt thị giác được nâng cao, cho phép tạo ảnh hữu ích và nhất quán
Tính năng dựng văn bản
- Hình ảnh có thể chứa hàng nghìn từ, nhưng chỉ vài đoạn văn bản đúng vị trí cũng có thể tăng cường ý nghĩa
- GPT‑4o có thể kết hợp ký hiệu hoặc văn bản chính xác vào hình ảnh để dùng như một công cụ giao tiếp trực quan
Tạo ảnh hội thoại
- GPT‑4o tích hợp tạo ảnh như một chức năng gốc, cho phép tạo và chỉnh sửa ảnh ngay trong dòng hội thoại
- Ví dụ: khi thiết kế nhân vật game, có thể lặp lại chỉnh sửa trong khi vẫn duy trì nhất quán ngoại hình
Phản ánh chính xác chỉ dẫn
- GPT‑4o phản ánh chính xác các prompt chi tiết
- Các hệ thống khác chỉ xử lý được khoảng 5-8 đối tượng, nhưng GPT‑4o có thể tạo nhất quán tối đa 10-20 đối tượng
- Duy trì chính xác hơn các thuộc tính và mối quan hệ giữa các đối tượng
Học dựa trên ngữ cảnh
- Phân tích ảnh do người dùng tải lên và phản ánh các chi tiết của ảnh đó vào quá trình tạo ảnh
Kết nối với tri thức thế giới
- GPT‑4o kết nối tri thức giữa văn bản và hình ảnh để tạo ảnh thông minh và hiệu quả hơn
Photorealism và nhiều phong cách khác nhau
- Được huấn luyện trên nhiều phong cách hình ảnh khác nhau, cho phép tạo ảnh chân thực và chuyển đổi phong cách
Hạn chế của mô hình
- Đây không phải là một mô hình hoàn hảo
- Sau khi phát hành ban đầu, mô hình sẽ tiếp tục được cải thiện dựa trên phản hồi người dùng và dữ liệu
Nỗ lực bảo đảm an toàn
- Vừa khuyến khích các hoạt động sáng tạo có ích như phát triển game, khám phá lịch sử, giáo dục, vừa duy trì các tiêu chuẩn an toàn nghiêm ngặt
- Đang áp dụng chính sách chặt chẽ để ngăn chặn việc tạo ra hình ảnh không phù hợp
-
Bảo đảm tính minh bạch thông qua C2PA và công cụ tìm kiếm nội bộ
- Mọi hình ảnh do GPT‑4o tạo ra đều bao gồm metadata C2PA để làm rõ nguồn gốc
- Có thể dùng công cụ tìm kiếm nội bộ để xác minh nguồn gốc hình ảnh dựa trên các thuộc tính kỹ thuật
-
Chặn hình ảnh không phù hợp
- Chặn các yêu cầu tạo hình ảnh vi phạm chính sách như hình ảnh tình dục trẻ em hoặc deepfake
- Áp dụng các hạn chế nghiêm ngặt hơn với hình ảnh có người thật
- Vận hành hệ thống chặn trước nghiêm ngặt đối với ảnh khỏa thân và hình ảnh bạo lực
-
Tăng cường an toàn dựa trên suy luận
- Huấn luyện một LLM dựa trên suy luận hoạt động dựa trên các bản đặc tả chính sách do con người viết
- Hệ thống này được dùng để nhận diện và giải quyết sự mơ hồ trong chính sách, đồng thời kết hợp với công nghệ đa phương thức để điều chỉnh cả văn bản đầu vào lẫn hình ảnh đầu ra theo tiêu chuẩn chính sách
Khả dụng
- Từ hôm nay, tính năng này được cung cấp làm bộ tạo ảnh mặc định cho người dùng Plus, Pro, Team và Free
- Enterprise và Edu sẽ sớm được hỗ trợ
- Cũng có thể sử dụng trong Sora, còn mô hình DALL·E hiện có vẫn có thể được truy cập qua một GPT riêng
- Tính năng tạo ảnh qua API sẽ được cung cấp cho nhà phát triển trong vài tuần tới
- Người dùng có thể tạo ảnh chỉ bằng mô tả mong muốn, đồng thời có thể chỉ định tỷ lệ, màu sắc (mã hex), có nền trong suốt hay không, v.v.
- Do tạo ảnh có độ chính xác cao, thời gian render có thể mất tới 1 phút
3 bình luận
Có vẻ bản free vẫn chưa thấy, tức là hiện chỉ mở cho Plus, Pro và Team thôi đúng không?
Ở bản Pro, nếu bấm vào dấu ... bên dưới khung chat thì có mục
Tạo hình ảnh (đã cập nhật), chắc là cái này rồi.Nhưng lại không thấy Best of # xuất hiện, nên hơi khó hiểu là đã được áp dụng hay chưa.
Ý kiến Hacker News
Phương thức tạo ảnh mới sử dụng token để suy luận trong không gian pixel thay vì diffusion
Giới thiệu 4o Image Generation: trình tạo ảnh tiên tiến nhất
Tò mò không hiểu vì sao họ không thêm benchmark với o1
Buổi livestream GPT-4o Image Generation của OpenAI khá chậm, mất khoảng 30 giây cho mỗi ảnh
Sau khi thử, có thể tạo thiệp mời sinh nhật cho con gái chỉ trong một lần
Thật đáng mừng vì nó không phải kiểu CG/truyện tranh bão hòa quá mức
Tò mò có cách nào kiểm tra prompt được xử lý bởi 4o hay Dall-E không
Bài kiểm tra ly rượu vang vẫn thất bại
Tò mò không biết trong số nhiều ảnh gắn thẻ "Best of 8" thì thực sự đã được chọn lọc đến mức nào
Có ví dụ về chỉnh sửa lặp lại với mô hình mới