Vision Foundation Model이란,
“거대한 데이터셋으로 사전 학습(pretraining)되어, 다양한 비전 작업에 범용적으로 활용할 수 있는 대규모 모델”
특정 작업(예: 분류, 탐지)에 특화되어 있지 않고,
👉‘시각 세계에 대한 일반적 표현(visual representation)’을 학습해두고 이후 다양한 다운스트림 작업(downstream task)에 적은 양의 추가 학습(fine-tuning or adaptation)만으로 활용할 수 있음
| 대규모 데이터 | 인터넷 이미지, 동영상 등 수억~수십억 장 수준 |
| 대규모 모델 | 수억~수십억 개의 파라미터 |
| 범용성 | 한 번 학습된 후, 다양한 비전 과제에 전이 가능 |
| Self-supervised / weakly-supervised 학습 | 라벨 없는 데이터나 약한 라벨을 활용 |
📈 발전 흐름 요약
| 2012–2016 | 대규모 supervised CNN | AlexNet, VGG, ResNet (Residual Network)(2015) |
| 2017–2020 | self-supervised 학습 기반 representation | SimCLR , MoCo, BYOL |
| 2021–현재 | 멀티모달 & 초대규모 파운데이션 모델 | CLIP, ALIGN, Florence, SAM, DINOv2 등 |
🧠 학습 방식별 대표 VFM
(1) Self-supervised Vision Models
- 라벨이 없는 이미지 데이터에서 스스로 학습 신호를 만들어 표현을 학습.
- 보통 contrastive learning 또는 masked image modeling을 사용.
SimCLR (2020) Google Augmentation으로 생성된 이미지 쌍을 같은 클래스로 두는 contrastive loss MoCo (2020) Facebook Momentum encoder로 큰 dictionary를 유지하여 contrastive 학습 BYOL (2020) DeepMind Teacher–student 네트워크, negative sample 없이 representation 학습 DINO / DINOv2 (2021–2023) Meta Self-distillation 기반, 큰 모델 없이도 뛰어난 표현력 획득, zero-shot transfer 가능
특징:
- 방대한 unlabeled 이미지에서 사전학습 가능
- 학습된 표현을 분류, 탐지, 분할 등에 전이하면 성능이 뛰어남
- 라벨 수집 비용이 필요 없음
(2) Weakly-supervised / Web-scale Vision Models
- 인터넷 이미지와 노이즈가 많은 약한 라벨(weak labels)을 활용해 초대규모 학습을 수행.
- 라벨은 사람이 직접 붙인 것이 아니라, 웹 텍스트나 캡션 등에서 추출한 것
모델 발표 데이터 규모 특징
| ALIGN (2021, Google) | 수억 장 | 웹 이미지 + 텍스트 쌍으로 joint embedding 학습 | |
| CLIP (2021, OpenAI) | 4억 장 | 이미지–텍스트 contrastive 학습으로 zero-shot 인식 가능 | |
| Florence (2021, Microsoft) | 9억 장 | 대규모 멀티태스크 학습으로 강력한 representation |
(3) Vision-only Large Masked Models
텍스트 BERT처럼 이미지를 patch 단위로 마스킹하고, 마스킹된 영역을 복원하도록 학습
Masked Autoencoder (MAE), iBOT, BEiT 등이 대표적
| MAE (2021) | 이미지 patch를 대량 마스킹 후 복원 | 효율적 pretraining, ViT 기반 |
| BEiT (2021) | discrete visual tokens 예측 | BERT와 유사한 pretraining |
🌐 멀티모달 파운데이션 모델
시각 + 언어를 동시에 학습하는 멀티모달 모델이 빠르게 발전하고 있음.
- CLIP (OpenAI, 2021) — 이미지·텍스트 공동 embedding
- ALIGN (Google, 2021) — 웹 크롤링 데이터 기반 초대규모 멀티모달 학습
- Flamingo (DeepMind, 2022) — 이미지+텍스트 few-shot 학습
- Kosmos-1 / GPT-4V (Microsoft/OpenAI, 2023) — 이미지–언어 멀티모달 reasoning
🧭 Vision Foundation Models의 활용 방식
VFMs는 학습 후 다양한 방식으로 downstream task에 적용
방식 설명
| Linear probing | backbone을 freeze하고, 마지막에 linear classifier만 학습 |
| Fine-tuning | backbone까지 모두 업데이트 |
| Prompting / Adapter | 사전학습된 backbone을 고정하고, 작은 모듈(adapter, prompt)을 학습하여 효율적으로 전이 |
| Zero-shot | 추가 학습 없이 바로 inference (ex. CLIP) |