1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding 문제를 다룬다. 기존 Video-LLM 계열 시스템은 몇십~몇백 프레임 수준에서는 동작하지만, 1분 이상 길이의 비디오, 특히 10K frames 이상의 비디오를 처리할 때 computation complexity, memory cost, long-term temporal connection 문제가 커진다고 본다.저자들은 기존 방법이 긴 비디오를 제대로 다루지 못하는 핵심 이유를 세 가지로 정리한다.많은 프레임을 한꺼번에 넣기 어려운 VRAM/GPU memory 제약프레임 수가 길어질수록 커지는 연산량멀리 떨어진 장면 사이 관계를 유지하기 어려운 long-term temporal connection 문제다.논문은 단순..