반응형

인공지능 논문정리/Vision 논문 4

[논문 요약] A Survey of Deep Learning Approaches for OCR and Document Understanding

OCR / Document Understanding Survey 논문 리뷰 이번 글에서는 NeurIPS2020의 ML-RSA 워크숍에 등재되었던 OCR 및 문서 이해와 관련된 Survey paper의 주요 내용에 대하여 간략하고 이해하기 쉽게 정리해보도록 하겠습니다. 해당 논문의 제목은 "A Survey of Deep Learning Approaches for OCR and Document Understanding" 입니다. Document Processing & Understanding의 전체 과정 문서 이미지로부터 텍스트를 추출하여 원하는 정보를 최종적으로 가져와 사용할 수 있는 테크닉은 응용될 수 있는 분야가 방대하고 매우 가치가 높은데, 다양한 종류의 문서 이미지에서 위 과정을 잘 수행하기 위해서..

[논문 요약] Vision Transformer(ViT) 주요 특징 정리

비전 트랜스포머 특징 요약 NLP에서 주로 사용되던 트랜스포머 구조를 비전 도메인에 적용하여 vision AI 분야의 판도를 뒤바꾼 vision transformer(ViT)를 소개했던 논문을 바탕으로 ViT에 대한 주요 특징들에 대하여 간단히 정리해보도록 하겠습니다. 논문의 제목은 "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" 이며, ICLR 2021에 등재된 paper입니다. CNN vs Transformer ResNet을 비롯한 CNN 구조의 모델들은 이미지 위상 정보를 학습에 반영하기 용이하다는 점을 바탕으로 vision 도메인에서 우위를 점하고 있었습니다. 반면, BERT와 같은 transformer 구조..

[술술 읽히는 논문 요약] Supervised Contrastive Learning

Supervised Contrastive Learning 저자 : Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, Dilip Krishnan 외 학회 : Neural Information Processing Systems(NIPS) 연도 : 2020년 논문 링크 : https://arxiv.org/abs/2004.11362 실험 목적 Contrastive Learning : 가까운 대상은 가깝게, 먼 대상은 멀게 가상의 공간 내에 Mapping하는 모델을 학습 ex) 자연어 처리 -> Word2Vec, 비전 분야에서도 활발히 연구 비전 분야에서 기존 Con..

[술술 읽히는 논문 요약] FaceNet 논문 - Triplet loss

FaceNet: A Unified Embedding for Face Recognition and Clustering 저자 : Florian Schroff, Dmitry Kalenichenko, James Philbin 외(구글 팀) 학회 : Computer Vision and Pattern Recognition(CVPR) 연도 : 2015년 논문 링크 : https://arxiv.org/abs/1503.03832 실험에서 구현하려고 한 것은? A사람 앞 모습 A사람 옆 모습 : 거리 0.9로 인식 A사람 앞 모습 B사람 앞 모습 : 거리 1.2로 인식 => 1~1.1 이정도를 기준으로 삼으면? : 같은 사람 / 다른 사람 구분 가능! 학습 방법(Triplet Loss) Input 1 세트의 구성(같은 사..

반응형