1) 어떤 문제를 해결하고 싶은가이 논문은 multimodal video understanding를 위한 large-scale Video Foundation Model을 어떻게 만들 것인가를 다룬다. 목표는 단순한 action recognition 하나가 아니라, video recognition, video-text retrieval, temporal grounding, audio-related tasks, video-centric dialogue, long video understanding까지 폭넓게 잘하는 범용 video encoder를 구축하는 것이다.저자들이 본 핵심 문제는 기존 video learning이 대체로 다음 셋 중 하나에 치우쳐 있었다는 점이다.masked video modeling..