Vision Foundation Model이란,“거대한 데이터셋으로 사전 학습(pretraining)되어, 다양한 비전 작업에 범용적으로 활용할 수 있는 대규모 모델” 특정 작업(예: 분류, 탐지)에 특화되어 있지 않고,👉‘시각 세계에 대한 일반적 표현(visual representation)’을 학습해두고 이후 다양한 다운스트림 작업(downstream task)에 적은 양의 추가 학습(fine-tuning or adaptation)만으로 활용할 수 있음대규모 데이터인터넷 이미지, 동영상 등 수억~수십억 장 수준대규모 모델수억~수십억 개의 파라미터범용성한 번 학습된 후, 다양한 비전 과제에 전이 가능Self-supervised / weakly-supervised 학습라벨 없는 데이터나 약한 라벨을 ..