DALL·E: Tạo hình ảnh từ văn bản

(openai.com)

10 điểm bởi xguru 2021-01-07 | 1 bình luận | Chia sẻ qua WhatsApp

Phiên bản GPT-3 với 12 tỷ tham số
Được huấn luyện để tạo hình ảnh từ mô tả văn bản bằng cách sử dụng tập dữ liệu gồm các cặp văn bản-hình ảnh
Thể hiện nhiều khả năng đa dạng như tạo các phiên bản nhân cách hóa của động vật và đồ vật, kết hợp hợp lý các khái niệm không liên quan, kết xuất văn bản hoặc áp dụng biến đổi lên hình ảnh có sẵn

→ Điều khiển thuộc tính: hình dạng, màu sắc, chất liệu, số lần xuất hiện, v.v.

→ Vẽ đồng thời nhiều đối tượng và biểu đạt mối quan hệ giữa chúng

→ Biểu đạt phối cảnh và trực quan hóa 3D

→ Biểu đạt cấu trúc bên trong và bên ngoài: bên trong quả óc chó, san hô não, v.v.

→ Suy luận chi tiết theo ngữ cảnh: thể hiện bằng cách thay đổi phong cách/bối cảnh/thời gian, chẳng hạn hiển thị bóng đổ phù hợp với tình huống

→ Thiết kế thời trang và nội thất

→ Kết hợp các khái niệm hoàn toàn không liên quan: ốc sên làm bằng đàn hạc, ghế hình quả bơ

→ Zero-shot visual reasoning

→ Tạo hình ảnh dựa trên thông tin địa lý/thời gian

DALL·E nhận 256 token văn bản và 1024 token hình ảnh trong một luồng duy nhất, rồi mô hình hóa theo phương thức tự hồi quy bằng một decoder-only transformer đơn giản

1 bình luận

heycalmdown 2021-01-08

Ôi, cái này thật đáng kinh ngạc. Mong chờ đến ngày nó được ứng dụng vào đời sống hằng ngày.