2026/04/06 2

[REVIEW] STABLE VIDEO INFINITY: INFINITE-LENGTH VIDEO GENERATION WITH ERROR RECYCLING

ICLR 2026 oral1) 해결하려는 문제핵심 문제는 long video generation에서의 error accumulation(드리프트)이다.기존 diffusion 기반 video 생성은 autoregressive 구조를 사용하며, 이전 프레임을 조건으로 다음 프레임을 생성한다. 이 과정에서:작은 예측 오차가 누적됨시간이 지날수록 영상 품질, motion consistency, semantic control이 붕괴됨또한 더 근본적인 문제는 다음과 같다:training–test hypothesis gaptraining: clean data 기반inference: self-generated noisy output 기반이 불일치가 error accumulation을 가속한다.2) 선행연구기존 접근의 ..

[REVIEW] FLASHVID: EFFICIENT VIDEO LARGE LANGUAGE MODELS VIA TRAINING-FREE TREE-BASED SPATIOTEMPORAL TOKEN MERGING

ICLR 2026 Oral이 논문은 Video Large Language Model(VLLM) 에서 비디오 토큰 수가 너무 많아 생기는 추론 비효율 문제를 다룬다. 핵심은 학습 없이(training-free), 그리고 plug-and-play 방식으로 비디오 토큰을 줄이되 중요한 시공간 정보를 최대한 유지하는 것이다. 논문은 이를 위해 FlashVID라는 방법을 제안한다.1) 어떤 문제를 해결하고 싶은가VLLM은 비디오를 이해할 때 프레임마다 매우 많은 visual token을 처리한다. 토큰 수가 많아지면 attention cost가 시퀀스 길이에 대해 크게 증가하고, 메모리와 연산량 부담도 커진다.직관적으로 보면, 비디오는 같은 정보가 여러 프레임에 반복해서 등장한다. 한 프레임 안에서도 비슷한 패치..