11 điểm bởi xguru 2023-05-24 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình biểu diễn tổng quát bao trùm cả các modality thị giác, âm thanh và ngôn ngữ
  • Đạt kết quả xuất sắc trên các tác vụ hợp nhất ngay cả khi không có mô hình tiền huấn luyện
  • Có khả năng Emergent Zero-shot Retrieval mạnh mẽ, cho phép căn chỉnh các modality không được ghép cặp trong dữ liệu huấn luyện
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 bình luận

 
dbs0829 2023-05-24

Có vẻ như nó đã phá kỷ lục SOTA trong rất nhiều tác vụ.