'2026/03/10 글 목록

2026/03/10 2

[REVIEW] INTERNVIDEO2: SCALING FOUNDATION MODELS FOR MULTIMODAL VIDEO UNDERSTANDING

1) 어떤 문제를 해결하고 싶은가이 논문은 multimodal video understanding를 위한 large-scale Video Foundation Model을 어떻게 만들 것인가를 다룬다. 목표는 단순한 action recognition 하나가 아니라, video recognition, video-text retrieval, temporal grounding, audio-related tasks, video-centric dialogue, long video understanding까지 폭넓게 잘하는 범용 video encoder를 구축하는 것이다.저자들이 본 핵심 문제는 기존 video learning이 대체로 다음 셋 중 하나에 치우쳐 있었다는 점이다.masked video modeling..

딥러닝 논문/비전 딥러닝 논문 2026.03.10

[REVIEW] VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

1) 어떤 문제를 해결하고 싶은가Video Transformer를 video dataset 자체만으로, 그리고 extra image data 없이 잘 pre-train하는 문제를 다룬다. 저자들은 기존에는 ViT 계열이 대체로 대규모 image pre-training에 의존했고, video dataset은 상대적으로 작아서 vanilla ViT를 video만으로 학습시키기 어렵다고 본다.구체적으로는 Self-Supervised Video Pre-Training(SSVP) 에서 masked autoencoding을 쓰되, image용 MAE를 그대로 video에 가져오면 잘 안 맞는다는 점이 핵심 문제다. 이유는 video에는 temporal redundancy와 temporal correlation이 있..

딥러닝 논문/비전 딥러닝 논문 2026.03.10

예비 대학원생의 논문 리뷰 뽀개기

서울대 경제학과 22학번 이지원의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

2026/03/10 2

티스토리툴바