2026/03/09 5

REVIEW MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding 문제를 다룬다. 기존 Video-LLM 계열 시스템은 몇십~몇백 프레임 수준에서는 동작하지만, 1분 이상 길이의 비디오, 특히 10K frames 이상의 비디오를 처리할 때 computation complexity, memory cost, long-term temporal connection 문제가 커진다고 본다.저자들은 기존 방법이 긴 비디오를 제대로 다루지 못하는 핵심 이유를 세 가지로 정리한다.많은 프레임을 한꺼번에 넣기 어려운 VRAM/GPU memory 제약프레임 수가 길어질수록 커지는 연산량멀리 떨어진 장면 사이 관계를 유지하기 어려운 long-term temporal connection 문제다.논문은 단순..

[REVIEW] Is Space-Time Attention All You Need for Video Understanding?

1) 어떤 문제를 해결하고 싶은가이 논문이 풀고자 하는 핵심 문제는 video understanding에서 convolution 없이 self-attention만으로 충분한가 이다. 더 구체적으로는, 기존 video recognition이 주로 2D/3D CNN 에 의존해 왔는데, 이 구조가 가진 한계를 넘어서 space-time self-attention만으로도 경쟁력 있는 video model 을 만들 수 있는지를 묻는다.저자들이 문제로 보는 기존 CNN 기반 video model의 한계는 크게 세 가지다.강한 inductive bias: local connectivity, translation equivariance 같은 bias가 small-data에서는 유리하지만, data가 충분히 큰 regi..

REVIEW BUDGETED ONLINE CONTINUAL LEARNING BY ADAPTIVE LAYER FREEZING AND FREQUENCY-BASED SAMPLING

1) 어떤 문제를 해결하고 싶은가이 논문이 다루는 핵심 문제는 online continual learning (online CL) 에서 알고리즘들을 비교하고 설계할 때, 기존 평가 방식이 실제 resource budget 을 공정하게 반영하지 못한다는 점이다. 저자들은 많은 기존 연구가 single-epoch training 과 replay memory size 만을 제한으로 두지만, 실제로는 알고리즘마다 epoch당 연산량이 다르고, replay memory 외에 logit, previous model, expanded network 같은 추가 저장 비용도 발생한다고 지적한다.즉, 기존 비교는 겉으로는 “같은 1 epoch” 또는 “같은 메모리 크기”처럼 보여도, 실제로는 어떤 방법은 훨씬 더 많은 F..

딥러닝 논문 2026.03.09

[REVIEW] Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

1) 어떤 문제를 해결하고 싶은가이 연구의 핵심 문제는 image와 video를 함께 다루는 Large Vision-Language Model(LVLM) 에서, 두 modality의 visual feature가 서로 다른 feature space에 놓인 채 Large Language Model(LLM)으로 들어간다는 점이다. 저자들은 이것을 projection 이전의 misalignment 문제로 본다. 즉, image token과 video token이 애초에 잘 정렬되어 있지 않아서, 뒤에 붙는 몇 개의 projection layer만으로는 LLM이 두 modality의 관계를 충분히 배우기 어렵다고 본다.기존 LVLM은 대체로 image-language 전용이거나 video-language 전용으로..

[REVIEW] Tuning Large Multimodal Models for Videos using Reinforcement Learning

1) 어떤 문제를 해결하고 싶은가이 연구의 핵심 문제는 Video Large Multimodal Models (VLMMs) 가 video와 text를 충분히 잘 정렬(alignment)하지 못해서, 영상에 제대로 grounded되지 않은 답변을 자주 만든다는 점이다. 특히 기존 VLMM은 대개 Supervised Fine-Tuning (SFT) 으로 학습되는데, multimodal instruction-tuning data는 text-only data보다 양과 질이 모두 부족해서 visual/temporal grounding이 약해진다고 본다.저자들은 이 문제를 “모델이 말을 잘하는가”의 문제가 아니라, 영상 내용에 맞는 선호(preference)를 어떻게 학습시키느냐의 문제로 본다. 즉, video를 ..