Đế chế Convolution phản công

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" Có một nhận thức phổ biến rằng ConvNet cho hiệu năng tốt trên các bộ dữ liệu nhỏ và vừa, nhưng trên các bộ dữ liệu siêu lớn thì không bằng transformer, đặc biệt là Vision Transformer (ViT) Nghiên cứu mới nhất của DeepMind thách thức quan niệm này Từ trước đến nay, người ta vẫn cho rằng khả năng mở rộng của transformer vượt trội hơn ConvNets, nhưng lại thiếu bằng chứng để chứng minh điều đó Các tác giả sử dụng họ NFNet (Normalizer-Free ResNets) và tăng dần độ rộng/độ sâu của mạng Tiền huấn luyện trên JFT-4B, rồi fine-tune trên ImageNet bằng SAM (Sharpness-Aware Minimization) Kết quả cho thấy hiệu năng tương đương với các mô hình ViT Tất cả các mô hình đều tiếp tục cải thiện khi được bổ sung thêm năng lực tính toán

(gonzoml.substack.com)

6 điểm bởi xguru 2023-10-31 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

"ConvNets Match Vision Transformers at Scale"
Có một nhận thức phổ biến rằng ConvNet cho hiệu năng tốt trên các bộ dữ liệu nhỏ và vừa, nhưng trên các bộ dữ liệu siêu lớn thì không bằng transformer, đặc biệt là Vision Transformer (ViT)
Nghiên cứu mới nhất của DeepMind thách thức quan niệm này
- Từ trước đến nay, người ta vẫn cho rằng khả năng mở rộng của transformer vượt trội hơn ConvNets, nhưng lại thiếu bằng chứng để chứng minh điều đó
- Các tác giả sử dụng họ NFNet (Normalizer-Free ResNets) và tăng dần độ rộng/độ sâu của mạng
- Tiền huấn luyện trên JFT-4B, rồi fine-tune trên ImageNet bằng SAM (Sharpness-Aware Minimization)
- Kết quả cho thấy hiệu năng tương đương với các mô hình ViT
- Tất cả các mô hình đều tiếp tục cải thiện khi được bổ sung thêm năng lực tính toán

Đế chế Convolution phản công

Bài viết liên quan

Chưa có bình luận nào.