2026/03/07 3

[REVIEW] Operator-learning-inspired Modeling of Neural Ordinary Differential Equations

1) 어떤 문제를 해결하고 싶은가Neural ODE(NODE)는 hidden state의 시간 변화율 \(dh(t)/dt\)를 neural network로 parameterize해서, residual network를 연속 깊이(continuous-depth) 관점으로 일반화한 모델이다. 이 논문은 바로 이 ODE function \(f(h(t), t; \theta_f)\), 즉 hidden state의 time-derivative를 어떻게 모델링할 것인가를 핵심 문제로 둔다.기존 NODE는 이 미분항을 주로 fully-connected layer, convolution layer, activation 같은 일반적인 finite-dimensional neural network로 구현해 왔다. 그런데 저자들..

딥러닝 논문 2026.03.07

[REVIEW] What Happens When:Learning Temporal Orders of Events in Videos

1) 어떤 문제를 해결하고 싶은가이 논문은 Video Large Multimodal Models (VLMMs) 가 비디오 안의 multiple events의 temporal order 를 실제로 이해하는지 묻는다.저자들의 문제의식: 기존 video benchmark에서 모델이 높은 성능을 보이더라도,그것이 정말로 video에 나타난 순서 정보 를 읽어서 푼 것인지,아니면 “보통 이런 상황이면 이런 순서겠지”라는 prior knowledge / common-sense prior 에 기대서 푼 것인지는 분리되어 있지 않다.논문은 특히 다음 현상을 핵심 문제로 지적한다.비디오 frame이나 event 순서를 shuffle 해도 기존 benchmark에서 성능이 크게 무너지지 않는 경우가 많다.이것은 모델이 실..

REVIEW BINDER_Instantly Adaptive Mobile Manipulation with Open-Vocabulary Commands

1) 어떤 문제를 해결하고 싶은가Open-Vocabulary Mobile Manipulation (OVMM)에서 로봇이 자연어 지시를 따라 navigation + manipulation을 수행해야 한다.현실 환경에서는 물체/사람/장소가 계속 변하므로, 로봇은 실행 중에도 환경 변화에 즉시 적응해야 한다.기존 OVMM 파이프라인은 3D semantic scene reconstruction(3D 지도/장면 의미화)이 무거워서 자주 갱신하지 못한다(갱신이 느림).그래서 많은 시스템이 “목표 도달, waypoint 도달, 액션 종료” 같은 discrete 시점에서만 3D를 업데이트한다.그 사이 구간에서는 사실상 temporal blindness(중간에 변한 것을 제때 못 봄)이 생긴다.이동 중 시야에 targe..