1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding에서 발생하는 핵심 병목인 video token explosion 문제를 해결하려고 한다. 긴 비디오를 그대로 Vision-Language Large Model에 넣으면 frame 수가 많아져 token 수가 급격히 늘고, 계산량이 커지며, 앞부분 문맥이 소실되기 쉽다.기존 long video 처리 방식은 대체로sparse temporal sampling으로 일부 frame만 뽑거나,spatio-temporal pooling / frame compression으로 token 수를 줄이거나,memory bank를 따로 두는 방식이었다. 그런데 이 방식들은 긴 시간축의 temporal information을 잃거나, spa..