10 điểm bởi xguru 2021-01-07 | 1 bình luận | Chia sẻ qua WhatsApp
  • Phiên bản GPT-3 với 12 tỷ tham số

  • Được huấn luyện để tạo hình ảnh từ mô tả văn bản bằng cách sử dụng tập dữ liệu gồm các cặp văn bản-hình ảnh

  • Thể hiện nhiều khả năng đa dạng như tạo các phiên bản nhân cách hóa của động vật và đồ vật, kết hợp hợp lý các khái niệm không liên quan, kết xuất văn bản hoặc áp dụng biến đổi lên hình ảnh có sẵn

→ Điều khiển thuộc tính: hình dạng, màu sắc, chất liệu, số lần xuất hiện, v.v.

Quảng cáo

→ Vẽ đồng thời nhiều đối tượng và biểu đạt mối quan hệ giữa chúng

→ Biểu đạt phối cảnh và trực quan hóa 3D

→ Biểu đạt cấu trúc bên trong và bên ngoài: bên trong quả óc chó, san hô não, v.v.

→ Suy luận chi tiết theo ngữ cảnh: thể hiện bằng cách thay đổi phong cách/bối cảnh/thời gian, chẳng hạn hiển thị bóng đổ phù hợp với tình huống

Quảng cáo

→ Thiết kế thời trang và nội thất

→ Kết hợp các khái niệm hoàn toàn không liên quan: ốc sên làm bằng đàn hạc, ghế hình quả bơ

→ Zero-shot visual reasoning

→ Tạo hình ảnh dựa trên thông tin địa lý/thời gian

  • DALL·E nhận 256 token văn bản và 1024 token hình ảnh trong một luồng duy nhất, rồi mô hình hóa theo phương thức tự hồi quy bằng một decoder-only transformer đơn giản

1 bình luận

 
heycalmdown 2021-01-08

Ôi, cái này thật đáng kinh ngạc. Mong chờ đến ngày nó được ứng dụng vào đời sống hằng ngày.