카테고리 없음

[VFM] Vision foundation models

서울대 경제학부 22학번 이지원 2025. 10. 5. 14:34

Vision Foundation Model이란,

“거대한 데이터셋으로 사전 학습(pretraining)되어, 다양한 비전 작업에 범용적으로 활용할 수 있는 대규모 모델”

특정 작업(예: 분류, 탐지)에 특화되어 있지 않고,

👉‘시각 세계에 대한 일반적 표현(visual representation)’을 학습해두고 이후 다양한 다운스트림 작업(downstream task)에 적은 양의 추가 학습(fine-tuning or adaptation)만으로 활용할 수 있음

대규모 데이터	인터넷 이미지, 동영상 등 수억~수십억 장 수준
대규모 모델	수억~수십억 개의 파라미터
범용성	한 번 학습된 후, 다양한 비전 과제에 전이 가능
Self-supervised / weakly-supervised 학습	라벨 없는 데이터나 약한 라벨을 활용

2012–2016	대규모 supervised CNN	AlexNet, VGG, ResNet (Residual Network)(2015)
2017–2020	self-supervised 학습 기반 representation	SimCLR , MoCo, BYOL
2021–현재	멀티모달 & 초대규모 파운데이션 모델	CLIP, ALIGN, Florence, SAM, DINOv2 등

보통 contrastive learning 또는 masked image modeling을 사용.

SimCLR (2020)	Google	Augmentation으로 생성된 이미지 쌍을 같은 클래스로 두는 contrastive loss
MoCo (2020)	Facebook	Momentum encoder로 큰 dictionary를 유지하여 contrastive 학습
BYOL (2020)	DeepMind	Teacher–student 네트워크, negative sample 없이 representation 학습
DINO / DINOv2 (2021–2023)	Meta	Self-distillation 기반, 큰 모델 없이도 뛰어난 표현력 획득, zero-shot transfer 가능

특징:

모델 발표 데이터 규모 특징

ALIGN (2021, Google)	수억 장	웹 이미지 + 텍스트 쌍으로 joint embedding 학습
CLIP (2021, OpenAI)	4억 장	이미지–텍스트 contrastive 학습으로 zero-shot 인식 가능
Florence (2021, Microsoft)	9억 장	대규모 멀티태스크 학습으로 강력한 representation

텍스트 BERT처럼 이미지를 patch 단위로 마스킹하고, 마스킹된 영역을 복원하도록 학습

Masked Autoencoder (MAE), iBOT, BEiT 등이 대표적

MAE (2021)	이미지 patch를 대량 마스킹 후 복원	효율적 pretraining, ViT 기반
BEiT (2021)	discrete visual tokens 예측	BERT와 유사한 pretraining

시각 + 언어를 동시에 학습하는 멀티모달 모델이 빠르게 발전하고 있음.

VFMs는 학습 후 다양한 방식으로 downstream task에 적용

방식 설명

Linear probing	backbone을 freeze하고, 마지막에 linear classifier만 학습
Fine-tuning	backbone까지 모두 업데이트
Prompting / Adapter	사전학습된 backbone을 고정하고, 작은 모듈(adapter, prompt)을 학습하여 효율적으로 전이
Zero-shot	추가 학습 없이 바로 inference (ex. CLIP)

예비 대학원생의 논문 리뷰 뽀개기

서울대 경제학과 22학번 이지원의 블로그 입니다.