카테고리 없음

[VFM] Vision foundation models

서울대 경제학부 22학번 이지원 2025. 10. 5. 14:34

Vision Foundation Model이란,

“거대한 데이터셋으로 사전 학습(pretraining)되어, 다양한 비전 작업에 범용적으로 활용할 수 있는 대규모 모델”

 

 

특정 작업(예: 분류, 탐지)에 특화되어 있지 않고,

👉‘시각 세계에 대한 일반적 표현(visual representation)’을 학습해두고 이후 다양한 다운스트림 작업(downstream task)에 적은 양의 추가 학습(fine-tuning or adaptation)만으로 활용할 수 있음

대규모 데이터 인터넷 이미지, 동영상 등 수억~수십억 장 수준
대규모 모델 수억~수십억 개의 파라미터
범용성 한 번 학습된 후, 다양한 비전 과제에 전이 가능
Self-supervised / weakly-supervised 학습 라벨 없는 데이터나 약한 라벨을 활용

 

📈 발전 흐름 요약

2012–2016 대규모 supervised CNN AlexNet, VGG, ResNet (Residual Network)(2015)
2017–2020 self-supervised 학습 기반 representation SimCLR , MoCo, BYOL
2021–현재 멀티모달 & 초대규모 파운데이션 모델 CLIP, ALIGN, Florence, SAM, DINOv2 등

 

🧠 학습 방식별 대표 VFM

(1) Self-supervised Vision Models

  • 라벨이 없는 이미지 데이터에서 스스로 학습 신호를 만들어 표현을 학습.
  • 보통 contrastive learning 또는 masked image modeling을 사용.
    SimCLR (2020) Google Augmentation으로 생성된 이미지 쌍을 같은 클래스로 두는 contrastive loss
    MoCo (2020) Facebook Momentum encoder로 큰 dictionary를 유지하여 contrastive 학습
    BYOL (2020) DeepMind Teacher–student 네트워크, negative sample 없이 representation 학습
    DINO / DINOv2 (2021–2023) Meta Self-distillation 기반, 큰 모델 없이도 뛰어난 표현력 획득, zero-shot transfer 가능

특징:

  • 방대한 unlabeled 이미지에서 사전학습 가능
  • 학습된 표현을 분류, 탐지, 분할 등에 전이하면 성능이 뛰어남
  • 라벨 수집 비용이 필요 없음

 

(2) Weakly-supervised / Web-scale Vision Models

  • 인터넷 이미지와 노이즈가 많은 약한 라벨(weak labels)을 활용해 초대규모 학습을 수행.
  • 라벨은 사람이 직접 붙인 것이 아니라, 웹 텍스트나 캡션 등에서 추출한 것

모델 발표 데이터 규모 특징

ALIGN (2021, Google) 수억 장 웹 이미지 + 텍스트 쌍으로 joint embedding 학습  
CLIP (2021, OpenAI) 4억 장 이미지–텍스트 contrastive 학습으로 zero-shot 인식 가능  
Florence (2021, Microsoft) 9억 장 대규모 멀티태스크 학습으로 강력한 representation  

 

(3) Vision-only Large Masked Models

텍스트 BERT처럼 이미지를 patch 단위로 마스킹하고, 마스킹된 영역을 복원하도록 학습

Masked Autoencoder (MAE), iBOT, BEiT 등이 대표적

MAE (2021) 이미지 patch를 대량 마스킹 후 복원 효율적 pretraining, ViT 기반
BEiT (2021) discrete visual tokens 예측 BERT와 유사한 pretraining

 

🌐 멀티모달 파운데이션 모델

시각 + 언어를 동시에 학습하는 멀티모달 모델이 빠르게 발전하고 있음.

  • CLIP (OpenAI, 2021) — 이미지·텍스트 공동 embedding
  • ALIGN (Google, 2021) — 웹 크롤링 데이터 기반 초대규모 멀티모달 학습
  • Flamingo (DeepMind, 2022) — 이미지+텍스트 few-shot 학습
  • Kosmos-1 / GPT-4V (Microsoft/OpenAI, 2023) — 이미지–언어 멀티모달 reasoning

 

🧭 Vision Foundation Models의 활용 방식

VFMs는 학습 후 다양한 방식으로 downstream task에 적용

방식 설명

Linear probing backbone을 freeze하고, 마지막에 linear classifier만 학습
Fine-tuning backbone까지 모두 업데이트
Prompting / Adapter 사전학습된 backbone을 고정하고, 작은 모듈(adapter, prompt)을 학습하여 효율적으로 전이
Zero-shot 추가 학습 없이 바로 inference (ex. CLIP)