반응형

트랜스포머 2

[논문 요약] Vision Transformer(ViT) 주요 특징 정리

비전 트랜스포머 특징 요약 NLP에서 주로 사용되던 트랜스포머 구조를 비전 도메인에 적용하여 vision AI 분야의 판도를 뒤바꾼 vision transformer(ViT)를 소개했던 논문을 바탕으로 ViT에 대한 주요 특징들에 대하여 간단히 정리해보도록 하겠습니다. 논문의 제목은 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" 이며, ICLR 2021에 등재된 paper입니다. CNN vs Transformer ResNet을 비롯한 CNN 구조의 모델들은 이미지 위상 정보를 학습에 반영하기 용이하다는 점을 바탕으로 vision 도메인에서 우위를 점하고 있었습니다. 반면, BERT와 같은 transformer 구조..

트랜스포머 모델 텍스트 생성(Text Generation) 원리 설명, 코드 구현

Transformer text generation 원리, 코드 구현 예제 트랜스포머 구조의 모델에서 텍스트를 생성하는 원리를 간단히 정리해보고, 허깅페이스에서 지원하는 Transformers 모듈을 활용하여 텍스트를 생성하는 코드를 구현하는 과정에 대하여 다루어보도록 하겠습니다. 트랜스포머 모델 텍스트 생성 원리(인코더-디코더 기반) Transformer 구조 모델에서 텍스트를 생성하는 원리를 간단하게 먼저 정리해보겠습니다. Encoder-Decoder 기반 구조로 이루어져있는 트랜스포머 기반 모델의 특징을 활용하여 인코더에서 input text를 임베딩한 결과와 이전 단계까지에서 생성된 output token을 디코더에서 받아들여 예측된 토큰 확률 분포에서 가장 확률이 높은 토큰 or 확률에 따른 샘플..

Python/NLP Code 2022.07.03
반응형