'2026/04/06 글 목록

[REVIEW] FLASHVID: EFFICIENT VIDEO LARGE LANGUAGE MODELS VIA TRAINING-FREE TREE-BASED SPATIOTEMPORAL TOKEN MERGING

ICLR 2026 Oral이 논문은 Video Large Language Model(VLLM) 에서 비디오 토큰 수가 너무 많아 생기는 추론 비효율 문제를 다룬다. 핵심은 학습 없이(training-free), 그리고 plug-and-play 방식으로 비디오 토큰을 줄이되 중요한 시공간 정보를 최대한 유지하는 것이다. 논문은 이를 위해 FlashVID라는 방법을 제안한다.1) 어떤 문제를 해결하고 싶은가VLLM은 비디오를 이해할 때 프레임마다 매우 많은 visual token을 처리한다. 토큰 수가 많아지면 attention cost가 시퀀스 길이에 대해 크게 증가하고, 메모리와 연산량 부담도 커진다.직관적으로 보면, 비디오는 같은 정보가 여러 프레임에 반복해서 등장한다. 한 프레임 안에서도 비슷한 패치..

딥러닝 논문/VLM(비전 랭귀지 모델) 딥러닝 논문 2026.04.06

« 2026/04 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

예비 대학원생의 논문 리뷰 뽀개기

2026/04/06 2

티스토리툴바