전체 글 61

[REVIEW] Is Space-Time Attention All You Need for Video Understanding?

1) 어떤 문제를 해결하고 싶은가이 논문이 풀고자 하는 핵심 문제는 video understanding에서 convolution 없이 self-attention만으로 충분한가 이다. 더 구체적으로는, 기존 video recognition이 주로 2D/3D CNN 에 의존해 왔는데, 이 구조가 가진 한계를 넘어서 space-time self-attention만으로도 경쟁력 있는 video model 을 만들 수 있는지를 묻는다.저자들이 문제로 보는 기존 CNN 기반 video model의 한계는 크게 세 가지다.강한 inductive bias: local connectivity, translation equivariance 같은 bias가 small-data에서는 유리하지만, data가 충분히 큰 regi..

REVIEW BUDGETED ONLINE CONTINUAL LEARNING BY ADAPTIVE LAYER FREEZING AND FREQUENCY-BASED SAMPLING

1) 어떤 문제를 해결하고 싶은가이 논문이 다루는 핵심 문제는 online continual learning (online CL) 에서 알고리즘들을 비교하고 설계할 때, 기존 평가 방식이 실제 resource budget 을 공정하게 반영하지 못한다는 점이다. 저자들은 많은 기존 연구가 single-epoch training 과 replay memory size 만을 제한으로 두지만, 실제로는 알고리즘마다 epoch당 연산량이 다르고, replay memory 외에 logit, previous model, expanded network 같은 추가 저장 비용도 발생한다고 지적한다.즉, 기존 비교는 겉으로는 “같은 1 epoch” 또는 “같은 메모리 크기”처럼 보여도, 실제로는 어떤 방법은 훨씬 더 많은 F..

딥러닝 논문 2026.03.09

[REVIEW] Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

1) 어떤 문제를 해결하고 싶은가이 연구의 핵심 문제는 image와 video를 함께 다루는 Large Vision-Language Model(LVLM) 에서, 두 modality의 visual feature가 서로 다른 feature space에 놓인 채 Large Language Model(LLM)으로 들어간다는 점이다. 저자들은 이것을 projection 이전의 misalignment 문제로 본다. 즉, image token과 video token이 애초에 잘 정렬되어 있지 않아서, 뒤에 붙는 몇 개의 projection layer만으로는 LLM이 두 modality의 관계를 충분히 배우기 어렵다고 본다.기존 LVLM은 대체로 image-language 전용이거나 video-language 전용으로..

[REVIEW] Tuning Large Multimodal Models for Videos using Reinforcement Learning

1) 어떤 문제를 해결하고 싶은가이 연구의 핵심 문제는 Video Large Multimodal Models (VLMMs) 가 video와 text를 충분히 잘 정렬(alignment)하지 못해서, 영상에 제대로 grounded되지 않은 답변을 자주 만든다는 점이다. 특히 기존 VLMM은 대개 Supervised Fine-Tuning (SFT) 으로 학습되는데, multimodal instruction-tuning data는 text-only data보다 양과 질이 모두 부족해서 visual/temporal grounding이 약해진다고 본다.저자들은 이 문제를 “모델이 말을 잘하는가”의 문제가 아니라, 영상 내용에 맞는 선호(preference)를 어떻게 학습시키느냐의 문제로 본다. 즉, video를 ..

[REVIEW] Operator-learning-inspired Modeling of Neural Ordinary Differential Equations

1) 어떤 문제를 해결하고 싶은가Neural ODE(NODE)는 hidden state의 시간 변화율 \(dh(t)/dt\)를 neural network로 parameterize해서, residual network를 연속 깊이(continuous-depth) 관점으로 일반화한 모델이다. 이 논문은 바로 이 ODE function \(f(h(t), t; \theta_f)\), 즉 hidden state의 time-derivative를 어떻게 모델링할 것인가를 핵심 문제로 둔다.기존 NODE는 이 미분항을 주로 fully-connected layer, convolution layer, activation 같은 일반적인 finite-dimensional neural network로 구현해 왔다. 그런데 저자들..

딥러닝 논문 2026.03.07

[REVIEW] What Happens When:Learning Temporal Orders of Events in Videos

1) 어떤 문제를 해결하고 싶은가이 논문은 Video Large Multimodal Models (VLMMs) 가 비디오 안의 multiple events의 temporal order 를 실제로 이해하는지 묻는다.저자들의 문제의식: 기존 video benchmark에서 모델이 높은 성능을 보이더라도,그것이 정말로 video에 나타난 순서 정보 를 읽어서 푼 것인지,아니면 “보통 이런 상황이면 이런 순서겠지”라는 prior knowledge / common-sense prior 에 기대서 푼 것인지는 분리되어 있지 않다.논문은 특히 다음 현상을 핵심 문제로 지적한다.비디오 frame이나 event 순서를 shuffle 해도 기존 benchmark에서 성능이 크게 무너지지 않는 경우가 많다.이것은 모델이 실..

REVIEW BINDER_Instantly Adaptive Mobile Manipulation with Open-Vocabulary Commands

1) 어떤 문제를 해결하고 싶은가Open-Vocabulary Mobile Manipulation (OVMM)에서 로봇이 자연어 지시를 따라 navigation + manipulation을 수행해야 한다.현실 환경에서는 물체/사람/장소가 계속 변하므로, 로봇은 실행 중에도 환경 변화에 즉시 적응해야 한다.기존 OVMM 파이프라인은 3D semantic scene reconstruction(3D 지도/장면 의미화)이 무거워서 자주 갱신하지 못한다(갱신이 느림).그래서 많은 시스템이 “목표 도달, waypoint 도달, 액션 종료” 같은 discrete 시점에서만 3D를 업데이트한다.그 사이 구간에서는 사실상 temporal blindness(중간에 변한 것을 제때 못 봄)이 생긴다.이동 중 시야에 targe..

[REVIEW] An Information Theoretic Evaluation Metric for Strong Unlearning

1) 어떤 문제를 해결하고 싶은가Machine Unlearning(MU)에서 목표는 학습된 모델에서 특정 데이터(Forget set, \(D_f\))의 영향을 제거하는 것이다. 이는 “right to be forgotten” 같은 privacy 요구나, 오염된/잘못 수집된 데이터를 사후에 제거해야 하는 상황을 포함한다.이 논문이 집중하는 설정은 Strong unlearning이다.Strong unlearning은 unlearning을 적용한 모델 \(\theta_u\)가 “forget 데이터를 제거하고 처음부터 다시 학습한 모델(retrain, \(\theta_r\))”과 구별 불가능(indistinguishable)해야 한다는 목표를 둔다.논문이 문제로 삼는 핵심은 평가(evaluation) 쪽이다.기..

딥러닝 논문 2026.03.06

[REVIEW] TRACE: YOUR DIFFUSION MODEL IS SECRETLY AN INSTANCE EDGE DETECTOR

이 논문이 해결하려는 문제문제의식: instance/panoptic segmentation에서 가장 큰 병목은 instance-level annotation(mask/box/point)의 비용·확장성·일관성 문제이다.현실적 실패 모드: annotation-free/weakly-supervised 파이프라인은 대개 backbone feature가 semantic similarity에 강한 대신,붙어있는 같은 클래스 객체가 하나로 합쳐지는(merge) 문제가 자주 발생하고,단일 객체가 여러 조각으로 쪼개지는(fragmentation) 문제도 잦다.핵심 질문: text-to-image diffusion model 내부(특히 denoising 과정의 self-attention)에 존재하는 신호를 활용해 라벨 없..

REVIEW Becoming Experienced Judges_Selective Test-Time Learning for Evaluators

이 논문이 해결하려는 문제문제: 배포 환경에서 널리 쓰이는 LLM-as-a-judge(자동 평가자)는 테스트 케이스를 연속적으로 처리하면서도, 보통매 케이스를 독립(i.i.d.)적으로 평가하고(=경험 축적이 없음),단일 static prompt에 의존해 케이스별로 달라져야 하는 평가 기준을 충분히 반영하지 못한다.핵심 질문: evaluator가 test-time에 스스로 개선(improve)되고, 그 개선이 이후 케이스에 누적적으로 재사용될 수 있는가?실용적 제약: 배포 시점에서추가 training,별도 validation set,추가 모델 앙상블 없이 적용 가능한 방법이 필요하다고 본다.직관적 의미사람 채점자는 사건/문항을 반복해서 보며 “채점 기준”이 더 정교해지고 일관성이 높아진다.이 논문은 eva..