자기 지도 학습과 준지도 학습 차이 비교
안녕하세요. 이번 글에서는 머신러닝 기법 논문에서 자주 등장하지만
혼동하기 쉬운 개념인 Self-Supervised Learning(자기 지도 학습)과
Semi-Supervised Learning(준지도 학습)의 특징 차이를 비교해보도록 하겠습니다.
Self-Supervised Learning 정의, 예시
먼저, 자기 지도 학습이라고 불리는 Self-Supervised Learning에 대해서
정의와 예시를 정리해보도록 하겠습니다.
자기 지도 학습이란 기존 데이터의 가공을 통하여
학습이 가능한 새로운 형태로 만들어 지도 학습을 진행하는 것을 의미합니다.
예를 들어, NLP에서 원래 문장의 일부 단어를 masking하고
해당 단어를 예측하는 과정은 원래 문장을 특별한 추가 라벨링 과정 없이
지도 학습이 가능한 새로운 형태로 만든 예시라고 볼 수 있습니다.
또한, 비전 태스크에서 기존 이미지들과 해당 이미지에서 회전, 반전, masking 등
data augmentation 과정을 거친 이미지들을 섞어 두 사진의 동일한 원본 여부를 예측하는
Contrastive Learning 기법 또한 기존 이미지를 가지고 새로운 지도 학습이 가능한 형태로의
가공을 거친 예시로 볼 수 있습니다.
Semi-Supervised Learning 정의, 예시
반면에, 준지도 학습이라고 불리는 Semi-Supervised Learning은
기존 데이터의 가공을 거치지는 않으며, 라벨링이 없는 데이터의 예측 라벨 결과를 이용하여
모델을 다시 학습시키는 과정을 의미합니다.
예를 들어, 100개의 라벨이 있는 이미지와 1000개의 라벨이 없는 이미지를 가정하겠습니다.
이 경우, 앞의 100개 이미지를 통해 우선 분류 모델을 학습하고,
101번째 이미지의 라벨을 예측합니다.
이 예측된 101번째 라벨을 pseudo-label로 삼아
101번째 학습 데이터로 간주하여 분류 모델을 학습하는데 사용하고,
102번째 이후 데이터에서도 마찬가지의 과정을 반복하는 것이 대표적인 예시입니다.
자기 지도 학습과 준지도 학습의 공통점
실제로 이 두 가지 학습 기법은 공통적인 장점을 공유하고 있습니다.
머신러닝 모델을 학습하는 과정에서 병목으로 작용되는 대표적인 과정은
라벨링된 데이터들을 구하는 과정입니다.
지도 학습에서는 데이터의 라벨링이 필수적이지만,
이 과정은 수작업으로 일일히 진행되어야 한다는 큰 단점이 있습니다.
그러나, 자기 지도 학습 및 준지도 학습 기법은 이런 라벨링 데이터의 부족 문제를
해결하기 위해 고안된 기법들이고 실제로 수작업의 수고를 크게 줄이면서
머신러닝 모델 기법의 성능 향상에 큰 기여를 하였습니다.
이런 공통된 의의를 생각하며 두 기법의 차이를 염두해두시면
머신러닝 논문 이해에 큰 도움이 될 것으로 생각됩니다.
'컴퓨터공학 > Machine Learning' 카테고리의 다른 글
Teacher Forcing이란? / Exposure Bias란? (0) | 2022.06.01 |
---|---|
[딥러닝 용어] Epoch, Batch Size, Step 정의 비교 (1) | 2022.04.09 |
Language Model (언어 모델) 요약, N-gram, RNN 개념 소개 (0) | 2021.11.15 |