전체 글 61

[REVIEW] STABLE VIDEO INFINITY: INFINITE-LENGTH VIDEO GENERATION WITH ERROR RECYCLING

ICLR 2026 oral1) 해결하려는 문제핵심 문제는 long video generation에서의 error accumulation(드리프트)이다.기존 diffusion 기반 video 생성은 autoregressive 구조를 사용하며, 이전 프레임을 조건으로 다음 프레임을 생성한다. 이 과정에서:작은 예측 오차가 누적됨시간이 지날수록 영상 품질, motion consistency, semantic control이 붕괴됨또한 더 근본적인 문제는 다음과 같다:training–test hypothesis gaptraining: clean data 기반inference: self-generated noisy output 기반이 불일치가 error accumulation을 가속한다.2) 선행연구기존 접근의 ..

[REVIEW] FLASHVID: EFFICIENT VIDEO LARGE LANGUAGE MODELS VIA TRAINING-FREE TREE-BASED SPATIOTEMPORAL TOKEN MERGING

ICLR 2026 Oral이 논문은 Video Large Language Model(VLLM) 에서 비디오 토큰 수가 너무 많아 생기는 추론 비효율 문제를 다룬다. 핵심은 학습 없이(training-free), 그리고 plug-and-play 방식으로 비디오 토큰을 줄이되 중요한 시공간 정보를 최대한 유지하는 것이다. 논문은 이를 위해 FlashVID라는 방법을 제안한다.1) 어떤 문제를 해결하고 싶은가VLLM은 비디오를 이해할 때 프레임마다 매우 많은 visual token을 처리한다. 토큰 수가 많아지면 attention cost가 시퀀스 길이에 대해 크게 증가하고, 메모리와 연산량 부담도 커진다.직관적으로 보면, 비디오는 같은 정보가 여러 프레임에 반복해서 등장한다. 한 프레임 안에서도 비슷한 패치..

강화학습 내용 정리 (Lecture 6~7)

LECTURE 6Monte Carlo MethodsMonte Carlo, MC는 환경의 complete model을 모를 때도 sample experience만으로 value를 학습하는 방법이다.여기서 경험은 episode에서 얻은 sample sequence, 즉 \((s,a,r,s')\)의 연속이다.이 방법은 episodic, undiscounted setting에서 소개되며, update는 episode-by-episode로 일어난다.핵심 아이디어는 각 state 또는 state-action pair에 대해 관측된 return들을 모아서 평균내는 것이다.관점상으로는 week 1의 bandit methods와 비슷하게, sample을 모아 평균으로 value를 추정한다.Dynamic Programmi..

강화학습 내용 정리 (Lecture 4~5)

LECTURE 4Dynamic ProgrammingDynamic Programming(DP)은 reinforcement learning 알고리즘을 이해하는 데 핵심적인 이론적 기반이다. 대부분의 현대 RL 알고리즘은 DP가 수행하는 효과를 환경 모델 없이, 더 적은 계산으로 근사하려는 방법이라고 볼 수 있다.1. Policies와 Value Functions정책(policy) \(\pi\)와 \(\pi'\)가 있을 때 다음이 성립하면 \(v_\pi(s) \ge v_{\pi'}(s) \quad \forall s \in S\) 정책 \(\pi\)가 \(\pi'\)보다 좋다. Optimal policy는 모든 정책보다 같거나 더 좋은 정책이다.그런데 과연 그런 정책이 존재할까?어떤 state에서는 policy..

카테고리 없음 2026.03.15

강화학습 내용 정리 (Lecture 1~3)

26년 1학기 오민환 교수님 강화학습 기초 수업을 듣고 필기한 내용이다.Lecture 1은 걍 수업 인트로니까 패스LECTURE 2Multi-armed BanditMulti-armed bandit 문제는 reinforcement learning에서 가장 단순한 형태의 의사결정 문제다. 여러 개의 선택지(arm)가 있고, 각 선택지는 보상을 발생시키는 확률 분포를 가진다. 목표는 시간이 지나면서 총 보상을 최대화하는 arm 선택 전략을 찾는 것이다.1. Multi-armed Bandit 문제의 설정슬롯머신이 여러 개 있다고 가정한다. 각 슬롯머신은 서로 다른 보상 분포를 가진다. 행동을 선택하면 보상이 즉시 관측된다.중요한 특징:행동은 미래 상태(state transition)에 영향을 주지 않는다.보상은..

[REVIEW] Streaming Long Video Understanding with Large Language Models

1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding에서 발생하는 핵심 병목인 video token explosion 문제를 해결하려고 한다. 긴 비디오를 그대로 Vision-Language Large Model에 넣으면 frame 수가 많아져 token 수가 급격히 늘고, 계산량이 커지며, 앞부분 문맥이 소실되기 쉽다.기존 long video 처리 방식은 대체로sparse temporal sampling으로 일부 frame만 뽑거나,spatio-temporal pooling / frame compression으로 token 수를 줄이거나,memory bank를 따로 두는 방식이었다. 그런데 이 방식들은 긴 시간축의 temporal information을 잃거나, spa..

[REVIEW] INTERNVIDEO2: SCALING FOUNDATION MODELS FOR MULTIMODAL VIDEO UNDERSTANDING

1) 어떤 문제를 해결하고 싶은가이 논문은 multimodal video understanding를 위한 large-scale Video Foundation Model을 어떻게 만들 것인가를 다룬다. 목표는 단순한 action recognition 하나가 아니라, video recognition, video-text retrieval, temporal grounding, audio-related tasks, video-centric dialogue, long video understanding까지 폭넓게 잘하는 범용 video encoder를 구축하는 것이다.저자들이 본 핵심 문제는 기존 video learning이 대체로 다음 셋 중 하나에 치우쳐 있었다는 점이다.masked video modeling..

[REVIEW] VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

1) 어떤 문제를 해결하고 싶은가Video Transformer를 video dataset 자체만으로, 그리고 extra image data 없이 잘 pre-train하는 문제를 다룬다. 저자들은 기존에는 ViT 계열이 대체로 대규모 image pre-training에 의존했고, video dataset은 상대적으로 작아서 vanilla ViT를 video만으로 학습시키기 어렵다고 본다.구체적으로는 Self-Supervised Video Pre-Training(SSVP) 에서 masked autoencoding을 쓰되, image용 MAE를 그대로 video에 가져오면 잘 안 맞는다는 점이 핵심 문제다. 이유는 video에는 temporal redundancy와 temporal correlation이 있..

REVIEW MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding 문제를 다룬다. 기존 Video-LLM 계열 시스템은 몇십~몇백 프레임 수준에서는 동작하지만, 1분 이상 길이의 비디오, 특히 10K frames 이상의 비디오를 처리할 때 computation complexity, memory cost, long-term temporal connection 문제가 커진다고 본다.저자들은 기존 방법이 긴 비디오를 제대로 다루지 못하는 핵심 이유를 세 가지로 정리한다.많은 프레임을 한꺼번에 넣기 어려운 VRAM/GPU memory 제약프레임 수가 길어질수록 커지는 연산량멀리 떨어진 장면 사이 관계를 유지하기 어려운 long-term temporal connection 문제다.논문은 단순..