비전 트랜스포머 특징 요약 NLP에서 주로 사용되던 트랜스포머 구조를 비전 도메인에 적용하여 vision AI 분야의 판도를 뒤바꾼 vision transformer(ViT)를 소개했던 논문을 바탕으로 ViT에 대한 주요 특징들에 대하여 간단히 정리해보도록 하겠습니다. 논문의 제목은 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" 이며, ICLR 2021에 등재된 paper입니다. CNN vs Transformer ResNet을 비롯한 CNN 구조의 모델들은 이미지 위상 정보를 학습에 반영하기 용이하다는 점을 바탕으로 vision 도메인에서 우위를 점하고 있었습니다. 반면, BERT와 같은 transformer 구조..