- Học bằng cách tạo ra một mô hình nội tại để so sánh các biểu diễn trừu tượng của hình ảnh, thay vì so sánh trực tiếp từng pixel
- Mang lại hiệu năng mạnh mẽ trong các tác vụ thị giác máy tính và hiệu quả hơn nhiều. Có thể áp dụng ở nhiều nơi mà không cần tinh chỉnh diện rộng
- Có thể huấn luyện một mô hình visual transformer 632M tham số chỉ trong 72 giờ với 16 GPU A100
- Chỉ với 12 ví dụ được gán nhãn cho mỗi lớp, đạt hiệu năng SOTA trong phân loại low-shot ImageNet
- Bài báo sẽ được trình bày tại CVPR 2023, đồng thời mã huấn luyện và checkpoint mô hình cũng sẽ được công bố mã nguồn mở
- Image Joint Embedding Predictive Architecture
1 bình luận
Có vẻ như do lỗi chính tả nên từ 'gwangbeomwi' đã không được viết đúng.