Vision Transformers cần Registers
(openreview.net)Vision Transformers cần registers
- Tác giả: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- Trình bày oral tại ICLR 2024
- Đăng ngày 16 tháng 1 năm 2024, chỉnh sửa lần cuối ngày 12 tháng 4 năm 2024
Tóm tắt
- Phát hiện và đặc trưng hóa các artifact trong feature map của các mô hình Vision Transformer (ViT) được huấn luyện bằng học có giám sát và tự giám sát
- Trong quá trình suy luận, các token có norm cao chủ yếu xuất hiện ở các vùng nền ít thông tin; đây là artifact tương ứng với việc chúng được tái sử dụng cho các phép tính nội bộ
- Đề xuất một giải pháp đơn giản nhưng hiệu quả: cung cấp thêm các token vào chuỗi đầu vào của ViT (gọi là "registers")
- Giải quyết hoàn toàn vấn đề này ở cả mô hình có giám sát lẫn tự giám sát, thiết lập SOTA mới cho các mô hình thị giác tự giám sát trong các tác vụ dự đoán thị giác dày đặc, cho phép áp dụng phương pháp phát hiện đối tượng với các mô hình lớn hơn, và quan trọng nhất là tạo ra feature map và attention map mượt hơn cho xử lý thị giác downstream
Thí nghiệm và phân tích
- Việc khảo sát artifact rất độc đáo và kỹ lưỡng. Các biểu đồ và phần giải thích rất sâu sắc, các thí nghiệm cũng toàn diện
- Việc bổ sung register token được đề xuất là rất đơn giản và thanh lịch, đồng thời cung cấp các attention mask dễ diễn giải hơn
- Đánh giá cao phần trình bày về các hạn chế
- Bài báo dễ theo dõi và các hình trực quan giúp cung cấp trực giác tốt
Điểm cần cải thiện
- Còn thiếu các thí nghiệm cho thấy việc thêm register token đã loại bỏ hành vi của các token ngoại lệ. Sẽ rất thú vị nếu kiểm tra xem trong mô hình được đề xuất, thông tin có được truyền qua token hình ảnh/register hay không
- Phần thảo luận về hiệu năng của mô hình trong phát hiện đối tượng không giám sát còn hạn chế và chưa khớp với kết quả
- Mức cải thiện của DINOv2+reg rất ấn tượng, nhưng cần thêm thảo luận hoặc ví dụ định tính để giải thích vì sao điều này không đúng với DINO
- Bài báo nói rằng registers cải thiện hiệu năng phát hiện đối tượng không giám sát ở mọi mô hình, nhưng hiệu năng của OpenCLIP lại giảm đi
Ý kiến của GN⁺
-
Ngoài registers, có thể còn những cách khác để giảm tính dư thừa ở mức patch bị giới hạn. Cũng tò mò liệu hiệu ứng tương tự có được quan sát trong các mô hình tự giám sát khác như MAE, nơi việc tái tạo ở mức patch được kỳ vọng sẽ làm giảm tính dư thừa của biểu diễn hay không
-
Có vẻ cần giải thích thêm về việc hiệu năng của OpenCLIP bị suy giảm. Ngoài ra, lý do hiệu năng LOST của DINO tốt hơn DINOv2 cũng chưa được giải thích đầy đủ
-
Việc DINOv2 thể hiện hành vi này dù sử dụng hàm mục tiêu dense mask-image-modeling là điều khá bất ngờ. Tò mò vì sao mục tiêu ảnh được mask, vốn đòi hỏi phải bảo toàn thông tin trong đặc trưng patch, vẫn không ngăn được hành vi này
-
Có vẻ cần phân biệt giữa thiên lệch của chính bộ dữ liệu và thiên lệch của nhãn. SSL ít bị ảnh hưởng bởi thiên lệch nhãn hơn, nhưng thiên lệch do nguồn dữ liệu như Instagram so với iNaturalist vẫn có thể tồn tại
-
Bài báo gợi ý rằng token ngoại lệ xuất hiện ở các mô hình lớn hơn, nhưng điều này không xảy ra ở các mô hình base của CLIP/DEIT. Sẽ tốt hơn nếu có bình luận về điểm này ở cuối mục 2.2
-
Tò mò hiệu năng phát hiện đối tượng không giám sát của mô hình DINO có thêm registers sẽ ra sao khi so với các mô hình khác có chức năng tương tự như CLIP của OpenAI hay LiT của Google
-
Sẽ rất hay nếu phân tích xem hiện tượng token ngoại lệ quan sát thấy ở các mô hình dựa trên ViT có xuất hiện cả ở các mô hình dựa trên CNN hay không, hay đây là đặc trưng riêng của kiến trúc transformer
-
Trong ứng dụng thực tế, sẽ hữu ích nếu có hướng dẫn về việc dùng register token liệu có gây suy giảm hiệu năng do tăng chi phí tính toán hay không, và làm thế nào để xác định số lượng registers tối ưu
Chưa có bình luận nào.