2026/03 26

강화학습 내용 정리 (Lecture 6~7)

LECTURE 6Monte Carlo MethodsMonte Carlo, MC는 환경의 complete model을 모를 때도 sample experience만으로 value를 학습하는 방법이다.여기서 경험은 episode에서 얻은 sample sequence, 즉 \((s,a,r,s')\)의 연속이다.이 방법은 episodic, undiscounted setting에서 소개되며, update는 episode-by-episode로 일어난다.핵심 아이디어는 각 state 또는 state-action pair에 대해 관측된 return들을 모아서 평균내는 것이다.관점상으로는 week 1의 bandit methods와 비슷하게, sample을 모아 평균으로 value를 추정한다.Dynamic Programmi..

강화학습 내용 정리 (Lecture 4~5)

LECTURE 4Dynamic ProgrammingDynamic Programming(DP)은 reinforcement learning 알고리즘을 이해하는 데 핵심적인 이론적 기반이다. 대부분의 현대 RL 알고리즘은 DP가 수행하는 효과를 환경 모델 없이, 더 적은 계산으로 근사하려는 방법이라고 볼 수 있다.1. Policies와 Value Functions정책(policy) \(\pi\)와 \(\pi'\)가 있을 때 다음이 성립하면 \(v_\pi(s) \ge v_{\pi'}(s) \quad \forall s \in S\) 정책 \(\pi\)가 \(\pi'\)보다 좋다. Optimal policy는 모든 정책보다 같거나 더 좋은 정책이다.그런데 과연 그런 정책이 존재할까?어떤 state에서는 policy..

카테고리 없음 2026.03.15

강화학습 내용 정리 (Lecture 1~3)

26년 1학기 오민환 교수님 강화학습 기초 수업을 듣고 필기한 내용이다.Lecture 1은 걍 수업 인트로니까 패스LECTURE 2Multi-armed BanditMulti-armed bandit 문제는 reinforcement learning에서 가장 단순한 형태의 의사결정 문제다. 여러 개의 선택지(arm)가 있고, 각 선택지는 보상을 발생시키는 확률 분포를 가진다. 목표는 시간이 지나면서 총 보상을 최대화하는 arm 선택 전략을 찾는 것이다.1. Multi-armed Bandit 문제의 설정슬롯머신이 여러 개 있다고 가정한다. 각 슬롯머신은 서로 다른 보상 분포를 가진다. 행동을 선택하면 보상이 즉시 관측된다.중요한 특징:행동은 미래 상태(state transition)에 영향을 주지 않는다.보상은..

[REVIEW] Streaming Long Video Understanding with Large Language Models

1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding에서 발생하는 핵심 병목인 video token explosion 문제를 해결하려고 한다. 긴 비디오를 그대로 Vision-Language Large Model에 넣으면 frame 수가 많아져 token 수가 급격히 늘고, 계산량이 커지며, 앞부분 문맥이 소실되기 쉽다.기존 long video 처리 방식은 대체로sparse temporal sampling으로 일부 frame만 뽑거나,spatio-temporal pooling / frame compression으로 token 수를 줄이거나,memory bank를 따로 두는 방식이었다. 그런데 이 방식들은 긴 시간축의 temporal information을 잃거나, spa..

[REVIEW] INTERNVIDEO2: SCALING FOUNDATION MODELS FOR MULTIMODAL VIDEO UNDERSTANDING

1) 어떤 문제를 해결하고 싶은가이 논문은 multimodal video understanding를 위한 large-scale Video Foundation Model을 어떻게 만들 것인가를 다룬다. 목표는 단순한 action recognition 하나가 아니라, video recognition, video-text retrieval, temporal grounding, audio-related tasks, video-centric dialogue, long video understanding까지 폭넓게 잘하는 범용 video encoder를 구축하는 것이다.저자들이 본 핵심 문제는 기존 video learning이 대체로 다음 셋 중 하나에 치우쳐 있었다는 점이다.masked video modeling..

[REVIEW] VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

1) 어떤 문제를 해결하고 싶은가Video Transformer를 video dataset 자체만으로, 그리고 extra image data 없이 잘 pre-train하는 문제를 다룬다. 저자들은 기존에는 ViT 계열이 대체로 대규모 image pre-training에 의존했고, video dataset은 상대적으로 작아서 vanilla ViT를 video만으로 학습시키기 어렵다고 본다.구체적으로는 Self-Supervised Video Pre-Training(SSVP) 에서 masked autoencoding을 쓰되, image용 MAE를 그대로 video에 가져오면 잘 안 맞는다는 점이 핵심 문제다. 이유는 video에는 temporal redundancy와 temporal correlation이 있..

REVIEW MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

1) 어떤 문제를 해결하고 싶은가이 논문은 long video understanding 문제를 다룬다. 기존 Video-LLM 계열 시스템은 몇십~몇백 프레임 수준에서는 동작하지만, 1분 이상 길이의 비디오, 특히 10K frames 이상의 비디오를 처리할 때 computation complexity, memory cost, long-term temporal connection 문제가 커진다고 본다.저자들은 기존 방법이 긴 비디오를 제대로 다루지 못하는 핵심 이유를 세 가지로 정리한다.많은 프레임을 한꺼번에 넣기 어려운 VRAM/GPU memory 제약프레임 수가 길어질수록 커지는 연산량멀리 떨어진 장면 사이 관계를 유지하기 어려운 long-term temporal connection 문제다.논문은 단순..

[REVIEW] Is Space-Time Attention All You Need for Video Understanding?

1) 어떤 문제를 해결하고 싶은가이 논문이 풀고자 하는 핵심 문제는 video understanding에서 convolution 없이 self-attention만으로 충분한가 이다. 더 구체적으로는, 기존 video recognition이 주로 2D/3D CNN 에 의존해 왔는데, 이 구조가 가진 한계를 넘어서 space-time self-attention만으로도 경쟁력 있는 video model 을 만들 수 있는지를 묻는다.저자들이 문제로 보는 기존 CNN 기반 video model의 한계는 크게 세 가지다.강한 inductive bias: local connectivity, translation equivariance 같은 bias가 small-data에서는 유리하지만, data가 충분히 큰 regi..

REVIEW BUDGETED ONLINE CONTINUAL LEARNING BY ADAPTIVE LAYER FREEZING AND FREQUENCY-BASED SAMPLING

1) 어떤 문제를 해결하고 싶은가이 논문이 다루는 핵심 문제는 online continual learning (online CL) 에서 알고리즘들을 비교하고 설계할 때, 기존 평가 방식이 실제 resource budget 을 공정하게 반영하지 못한다는 점이다. 저자들은 많은 기존 연구가 single-epoch training 과 replay memory size 만을 제한으로 두지만, 실제로는 알고리즘마다 epoch당 연산량이 다르고, replay memory 외에 logit, previous model, expanded network 같은 추가 저장 비용도 발생한다고 지적한다.즉, 기존 비교는 겉으로는 “같은 1 epoch” 또는 “같은 메모리 크기”처럼 보여도, 실제로는 어떤 방법은 훨씬 더 많은 F..

딥러닝 논문 2026.03.09