5 điểm bởi xguru 2023-06-16 | 1 bình luận | Chia sẻ qua WhatsApp
  • Học bằng cách tạo ra một mô hình nội tại để so sánh các biểu diễn trừu tượng của hình ảnh, thay vì so sánh trực tiếp từng pixel
  • Mang lại hiệu năng mạnh mẽ trong các tác vụ thị giác máy tính và hiệu quả hơn nhiều. Có thể áp dụng ở nhiều nơi mà không cần tinh chỉnh diện rộng
  • Có thể huấn luyện một mô hình visual transformer 632M tham số chỉ trong 72 giờ với 16 GPU A100
    • Chỉ với 12 ví dụ được gán nhãn cho mỗi lớp, đạt hiệu năng SOTA trong phân loại low-shot ImageNet
  • Bài báo sẽ được trình bày tại CVPR 2023, đồng thời mã huấn luyện và checkpoint mô hình cũng sẽ được công bố mã nguồn mở
  • Image Joint Embedding Predictive Architecture

1 bình luận

 
libner 2023-06-16

Có vẻ như do lỗi chính tả nên từ 'gwangbeomwi' đã không được viết đúng.