1. Supervised Learning (지도학습)
- 사람이 직접 라벨링한 데이터를 이용해서 모델을 학습시킴.
- 예: 고양이/강아지 이미지마다 "cat", "dog" 라벨을 붙이고, 모델이 이를 구분하도록 학습
- 비싸지만 성능이 좋음.
2. Unsupervised Learning (비지도학습)
- 라벨이 없는 데이터만 줌
- 모델이 데이터 안의 패턴이나 구조를 알아서 찾아냄
- 대표적 예: 클러스터링 → 비슷한 위치에 있는 데이터를 같은 그룹으로 묶음
- 저렴하지만 성능이 떨어짐.
3. Self-Supervised Learning (자기지도학습)
- 라벨은 존재하지만 사람이 만든 게 아님 (=supervised보다 저렴하고, unsupervised보다 성능이 좋음)
- supervised에서는:
- 입력: 이미지
- 라벨: 사람이 붙임 (ex. dog, cat)
- self-supervised (discriminative)에서는:
- 입력: 원본 이미지를 가공 (augmentation, 변형)
- 라벨: 변형 과정 자체에서 생성 (ex. 회전 각도, 쌍 정보, 순서 등)
- pretext task(사전 과제): 라벨이 없는 데이터로부터 네트워크가 학습할 수 있도록 인위적으로 만든 학습 과제
- supervised에서는:
- 겉보기엔 supervised처럼 라벨이 있지만, 실제로는 unsupervised처럼 라벨 없이 시작함(unsupervised의 일종)
- 예시:
Image rotation prediction (Gidaris et al. 2018) 이미지를 0°, 90°, 180°, 270° 회전시켜 네트워크가 각도를 맞추도록 학습 Relative patch prediction 이미지 패치를 잘라 순서를 섞고, 올바른 순서를 맞추게 함 Colorization grayscale 이미지를 입력으로 주고, 원래 색을 복원하게 함 Contrastive learning (SimCLR) 동일 이미지의 augmentation 쌍 vs 다른 이미지 구분하기 Masking(BERT) 텍스트에서 일부 단어를 [MASK]로 가리고, 모델이 그 단어를 맞히도록 학습시키기
- Self-supervised 방법 내에서 generative / discriminative 방식이 나뉨.
- (1) Discriminative Self-supervised
- 👉 지도학습과 비슷한 “분류/대조” 문제를 인위적으로 만들어 학습
- 👉 데이터의 일부를 가리고 → 나머지를 복원하거나,
- 대표 모델: SimCLR, MoCo, BYOL, DINO
- 학습 목표: augmented pair 구분, 회전 각도 예측 등
- 특징: Contrastive loss, classification-like objective 사용
- 그 중 contrastive learning은 가장 대표적인 discriminative 방식.
- contrastive learning이란?
-
더보기
Contrastive learning의 핵심 아이디어: 같은 이미지에서 온 두 augmentation 쌍은 feature 공간에서 가깝게(positive), 서로 다른 이미지 쌍은 멀게(negative) 만들어라.
이때 모델은 쌍(pair) 단위로
- Positive vs Negative를 구분(판별)하는 과제를 학습.
- 이건 사실상 “같은 클래스인지 다른 클래스인지”를 판별하는 이진 분류 문제와 유사
수식적으로 보면

- (i,j)는 positive pair
- k는 negative samples
👉 여기서 핵심은, positive/negative라는 “인위적인 판별 클래스”를 만들고, 모델이 이걸 맞히는 방식으로 표현을 학습한다는 점. 따라서 self-supervised learning, 그 중에서도 discriminative 방식에 속한다고 볼 수 있음.
Pretext classification, Jigsaw puzzle, Relative position prediction 등과 같은 다른 discriminative self-supervised learning 방법도 많으나, 현재는 contrastive learning이 가장 성능이 좋고, 확장성도 높아서 주류가 된 상황
- 대표 모델: Autoencoder, MAE, BEiT, Masked modeling 계열
- 학습 목표: P(x) 모델링 = 이미지 자체를 복원하거나 생성
- 특징: Reconstruction loss (L2, cross-entropy 등) 사용