1) 어떤 문제를 해결하고 싶은가이 논문이 풀고자 하는 핵심 문제는 video understanding에서 convolution 없이 self-attention만으로 충분한가 이다. 더 구체적으로는, 기존 video recognition이 주로 2D/3D CNN 에 의존해 왔는데, 이 구조가 가진 한계를 넘어서 space-time self-attention만으로도 경쟁력 있는 video model 을 만들 수 있는지를 묻는다.저자들이 문제로 보는 기존 CNN 기반 video model의 한계는 크게 세 가지다.강한 inductive bias: local connectivity, translation equivariance 같은 bias가 small-data에서는 유리하지만, data가 충분히 큰 regi..