딥러닝 논문/시계열 딥러닝 논문

[Review] Deep Signature Transforms (NeurIPS 2019)

서울대 경제학부 22학번 이지원 2026. 1. 27. 14:59

Kidger, Patrick, Patric Bonnier, Imanol Perez Arribas, Cristopher Salvi, Terry Lyons. “Deep Signature Transforms”. Advances in Neural Information Processing Systems 32 (2019년). https://papers.nips.cc/paper_files/paper/2019/hash/d2cdf047a6674cef251d56544a3cf029-Abstract.html.

Deep Signature Transforms

연구 목표 개요

이 논문의 목표는 Signature Transform
기존처럼 고정된 전처리(feature transformation)로 사용하는 방식에서 벗어나,
이를 Neural Network 내부에서 학습 가능한 구성 요소(layer)로 일반화하는 데 있다.

구체적으로는 다음 질문에 답하고자 한다.

  • Signature의 강력한 이론적 성질(uniqueness, universal nonlinearity, reparameterization invariance)을
    딥러닝의 end-to-end 학습 구조 안으로 어떻게 통합할 수 있는가?
  • Truncated signature의 한계와 hand-crafted augmentation 문제를
    데이터 기반 학습으로 해결할 수 있는가?
  • Signature를 여러 번, 깊게(deeply) 사용할 수 있는 구조를 만들 수 있는가?
직관적 의미

Signature를 “한 번 계산하고 끝나는 특징”이 아니라
neural network 안에서 representation을 형성하는 핵심 연산으로 쓰고자 한다.

왜 중요한가

순차 데이터(stream, path)는 많은 영역에서 핵심적이지만,
이론적 보장과 딥러닝의 표현력을 동시에 만족하는 일반적 프레임워크는 부족했다.
이 논문은 그 간극을 메우려는 시도이다.


선행연구: Signature 기반 접근의 구체적 유형

1. Signature를 고정 Feature Transformation으로 사용하는 접근

가장 전통적인 접근은 다음과 같다.

  • 입력: 순차 데이터(stream) \(x = (x_1,\dots,x_n)\)
  • 변환: truncated signature \(Sig_N(x)\)
  • 학습: \(Sig_N(x)\)를 입력으로 하는 회귀/분류 모델

즉, \[ x \;\longrightarrow\; Sig_N(x) \;\longrightarrow\; f_\theta(Sig_N(x)) \] 의 구조이다.

직관적 의미

Signature를 Fourier transform이나 wavelet transform처럼
“표현을 바꿔주는 도구”로 사용한다.

왜 중요한가

Signature는 path 공간에서 매우 풍부한 표현을 제공하므로,
원본 데이터보다 학습이 쉬운 공간을 제공할 수 있다.

이론적 근거

이 접근은 signature의 다음 성질에 의존한다.

  • Uniqueness: signature는 path를 (거의) 유일하게 결정한다.
  • Universal nonlinearity:
    path에 대한 임의의 연속 함수는 signature의 선형 함수로 근사 가능하다.
  • Time reparameterization invariance:
    데이터가 언제 관측되었는지보다 어떤 순서로 변화했는지에 집중한다.

이 성질들은 “선형 모델 + signature”만으로도
매우 넓은 함수족을 근사할 수 있음을 의미한다.

실무적 구현 방식
  • Signature는 사전 계산(preprocessing) 된다.
  • 학습 중에는 signature를 다시 계산하지 않는다.
  • 계산 비용은 학습 이전 단계에 집중된다.

이 방법의 한계:

  • Signature는 본질적으로 무한 차원 → 반드시 depth \(N\)에서 truncation 필요
  • 항의 개수는 \(\sum_{k=0}^N d^k\)로 급격히 증가
  • 어떤 \(N\)이 충분한지 이론적으로 명확하지 않다.

2. Truncation 문제를 완화하기 위한 Augmentation 기반 접근

Truncated signature의 한계를 보완하기 위해
입력 stream 자체를 변형한 뒤 signature를 취하는 방식이 제안되었다.

핵심 아이디어는 다음과 같다.

  • 고차 signature 정보를
  • 저차 signature 항으로 “끌어내릴” 수 있도록
  • 입력을 확장(augment)하자.

사전 정의된 feature map \(\Phi : \mathbb{R}^d \to \mathbb{R}^e\)를 사용한다.

\[ x = (x_1,\dots,x_n) \;\longrightarrow\; (\Phi(x_1),\dots,\Phi(x_n)) \;\longrightarrow\; Sig_N(\Phi(x)) \]

대표적인 예는 \[ \Phi(x) = (x, \varphi(x)) \] 형태이다. 예를 들면 이런 식이다: \(x=(x_1, ..., x_n) \rightarrow \Phi(x) = ((x_1, \varphi(x_1)), (x_2, \varphi(x_2)), ..., (x_N, \varphi(x_N))\) 원본 x 뒤에 새로운 좌표 \(\varphi\)(x)를 붙이는 거다!

직관적 의미

입력을 더 풍부한 좌표계로 올린 뒤,
같은 depth의 signature로 더 많은 정보를 담게 한다.

왜 중요한가

Depth를 무작정 키우지 않고도
표현력을 늘릴 수 있는 실용적 방법이다.

기존 연구에서의 활용 방식
  • \(\Phi\)는 사람이 설계(hand-crafted)
  • 여러 augmentation 후보를 실험적으로 비교
  • 문제별로 다른 휴리스틱 사용

근본적 한계

  • 어떤 \(\Phi\)가 좋은지 사전에 알 수 없다.
  • 좋은 \(\Phi\)데이터 의존적이다.
  • \(\Phi\) 자체는 학습되지 않는다.

3. 기존 접근들의 공통 구조적 한계

(1) Signature는 항상 “한 번만” 사용됨

  • Signature를 취하면 stream 구조가 사라진다.
  • 따라서 signature layer를 여러 번 쌓는 것이 불가능했다.

(2) Neural Network와의 결합이 제한적

  • Signature는 네트워크 외부에서 계산
  • 학습 과정에서 signature가 변하지 않는다.
  • Representation learning의 핵심 자유도를 스스로 제거한 셈이다.

4. 요약: 기존 연구의 위치

기존 연구는 다음 범위 안에 머물러 있었다.

  • Signature = 고정 feature map
  • Augmentation = hand-crafted
  • Neural Network = signature 이후에만 위치

이 논문은 위 구조를 깨고,
signature 자체를 학습 가능한 deep model의 내부 구성 요소로 끌어올리는 것을 목표로 한다.


3. 이 논문의 새로운 기여 (Contributions)

(1) Signature Transform을 Neural Network Layer로 재정의

기존 접근

  • Signature transform은 stream 전체를 한 번에 입력으로 받아
  • 고정 길이 벡터를 출력하는 사전 feature transformation이었다.
  • 학습 과정에서 signature는 변하지 않는다.

이 논문의 재정의

논문은 signature를 명시적인 neural network layer로 해석한다.

  • 입력 tensor \[ x \in \mathbb{R}^{b \times d \times n} \] (batch size \(b\), channel \(d\), time steps \(n\))
  • 출력 tensor \[ Sig_N(x) \in \mathbb{R}^{b \times \sum_{k=0}^N d^k} \] 이는 네트워크 관점에서
  • 시간 축 전체를 따라 정보를 집약하고
  • 순서(order)를 보존한 채
  • 고정 차원의 representation으로 변환하는 연산이다.

논문은 이 연산을 pooling operation으로 해석한다.

직관적 의미

Convolutional network에서 pooling이 공간 정보를 요약하듯,
Signature는 시간에 따른 변화의 순서 구조를 요약한다.

왜 중요한가

Signature가 전처리 결과가 아니라
forward/backward pass 안에서 작동하는 layer가 되면서,
다른 neural layer들과 결합된 end-to-end 학습이 가능해진다.


(2) Learnable Augmentation \(\Phi_\theta\)의 도입

기존 접근의 한계

기존 연구에서 augmentation \(\Phi\)

  • 사람이 설계한 고정 함수
  • 문제별 휴리스틱

이었다.

즉, \[ x \;\to\; \Phi(x) \;\to\; Sig_N(\Phi(x)) \] 에서 \(\Phi\)학습 대상이 아니었다.

이 논문의 제안

논문은 augmentation을 \[ \Phi_\theta \] 로 두고, trainable neural network로 일반화한다.

유일한 구조적 제약은 다음이다.

  • \(\Phi_\theta\)stream-preserving이어야 한다.

이를 만족하는 구체적 형태로 논문은 다음을 제시한다.

  • Pointwise network \[ \Phi(x) = (\Phi_\theta(x_1), \dots, \Phi_\theta(x_n)) \]
  • Sliding window / 1D convolution 기반 network
  • Recurrent network (memory 포함)
직관적 의미

Signature 이전에 neural network가 먼저
“어떤 representation이 중요한지”를 학습하도록 한다.

왜 중요한가

Truncated signature의 표현력 한계를
사람의 설계가 아니라 데이터 기반 학습으로 보완한다.
이는 signature를 진정한 end-to-end 모델 구성 요소로 만든 핵심 장치이다.


(3) Lift 개념 도입: Stream-preserving Signatures

기존 구조의 근본적 제약

Signature transform은

  • stream을 입력으로 받아
  • stream이 아닌 통계량 벡터를 출력한다.

즉, 한 번 적용하면 시간 구조가 소멸한다.
이 때문에 signature를 여러 번 쌓는 deep architecture가 불가능했다.

Lift의 도입

논문은 이를 해결하기 위해 lift \[ \ell : S(\mathbb{R}^d) \to S(S(\mathbb{R}^e)) \] 를 도입한다.

Lift는 하나의 stream을

  • 여러 개의 sub-stream으로 변환한다.

대표적 예시는 다음과 같다.

  • Expanding window
    \[ (x_1,\dots,x_n) \mapsto (y_2, y_3, \dots, y_n), \quad y_k = (x_1,\dots,x_k) \]
  • Sliding window
  • Segmentation

각 sub-stream에 signature를 적용하면 \[ (Sig_N(\ell_1(x)), \dots, Sig_N(\ell_v(x))) \] 이라는 새로운 stream이 생성된다.

직관적 의미

Signature로 stream을 요약하되,
그 요약 결과를 다시 시간 순서로 배열한다.

왜 중요한가

Signature를 사용한 이후에도 stream 구조가 유지되므로,
Signature layer를 여러 번 반복 적용할 수 있다.


(4) Deep Signature Model의 일반적 정식화

앞선 세 요소를 결합해 논문은 Deep Signature Model을 정의한다.

일반적인 구조는 다음과 같다.

\[ x \;\xrightarrow{\Phi_{\theta_1}}\; \xrightarrow{\ell_1}\; \xrightarrow{Sig_{N_1}}\; \xrightarrow{\Phi_{\theta_2}}\; \xrightarrow{\ell_2}\; \xrightarrow{Sig_{N_2}}\; \cdots\; \xrightarrow{f_{\theta_{k+1}}} \]

여기서

  • \(\Phi_{\theta_i}\): stream-preserving neural networks
  • \(\ell_i\): lifts
  • \(Sig_{N_i}\): truncated signature layers
  • \(f_{\theta_{k+1}}\): 최종 예측 network

논문은 다음을 명시적으로 주장한다.

  • 이 구조는
    • neural network의 universal approximation 성질과
    • signature의 universal nonlinearity 성질을 결합한다.
  • 따라서 이론적 표현력은 유지되면서
  • 실제로는 deep, hierarchical representation learning이 가능해진다.
왜 중요한가

Signature를 “한 번 쓰는 수학적 도구”에서
딥러닝의 계층적 표현 학습을 구성하는 기본 블록으로 승격시킨다.


기여 요약

이 논문의 새로운 기여는 다음 네 가지로 요약된다.

  1. Signature를 pooling layer로 재정의
  2. Augmentation을 학습 가능한 \(\Phi_\theta\)로 일반화
  3. Lift를 통해 stream 구조를 보존
  4. 이를 결합한 Deep Signature Model의 정식화
한 문장 요약

이 논문은 signature를 전처리 기법이 아니라
학습 가능한 deep neural architecture의 핵심 구성 요소로 전환시킨 연구이다.

4. 실험

4.1 확률과정에 대한 생성 모델 (Generative model)

  • 시계열/경로 데이터의 분포(distribution) 를 학습한다.
  • 랜덤 노이즈를 입력으로 받아 실제 데이터와 통계적으로 구분하기 어려운 새로운 경로를 생성하는 것이 목표다.
  • 입력 스트림은 time-augmented Brownian motion: \(B = ((t_1,B_{t_1}),\dots,(t_n,B_{t_n})) \in \mathcal{S}(\mathbb{R}^2)\)
  • GMMN (Generative Moment Matching Network) 를 이용
    • loss가 분포 간 거리인 생성형 모델. kernel MMD (Maximum Mean Discrepancy)로 거리를 측정.
    • 커널을 signature inner product 기반으로 정의한다.
      • 커널 정의: \(k(x,y) = \langle \mathrm{Sig}_N(\lambda_x x),\ \mathrm{Sig}_N(\lambda_y y)\rangle\)
      • \(\lambda_x, \lambda_y\)는 RKHS kernel 조건을 만족시키기 위한 정규화 상수다.
    • MMD loss (논문 표기 \(T\)): \[ T = \frac{1}{n^2}\sum k(x^{(i)},x^{(j)}) -\frac{2}{nm}\sum k(x^{(i)},y^{(j)}) +\frac{1}{m^2}\sum k(y^{(i)},y^{(j)}) \]
      • 생성 샘플 \(x^{(i)}\)와 실제 샘플 \(y^{(j)}\)의 분포 차이를 측정한다.
  • Generator 구조 (deep signature model의 특수형): \(x = (f_{\theta_2} \circ \mathrm{Sig}_N \circ \ell \circ \phi_{\theta_1})(B)\) - \(\phi_{\theta_1}\), \(f_{\theta_2}\): stream-preserving neural network - \(\ell\): lift - 중간에 signature 연산을 삽입해 경로를 생성한다.

실험 설정 및 결과

  • 데이터: Ornstein–Uhlenbeck (OU) process 실현값 1024개.
  • 학습 결과 MMD loss가 \(6.6 \times 10^{-4}\)까지 감소.
  • 논문 주장:
    • MMD 값이 매우 작아 생성 경로와 실제 OU 경로가 통계적으로 거의 구분 불가능하다.

4.2 Fractional Brownian Motion에서의 지도학습 (Hurst parameter 추정)

  • Fractional Brownian motion (FBM)은 Brownian motion을 일반화한 Gaussian process로,
    \(B^H : [0,1) \to \mathbb{R}\) 형태로 정의된다.
  • FBM은 Hurst parameter \(H \in (0,1)\) 에 의해 결정된다.
  • FBM 경로로부터 Hurst parameter를 추정하는 것은 비자명한 문제로 알려져 있다.
  • 이 논문에서는 다음 회귀 문제를 학습한다.\(x_H \mapsto H\)
    • 여기서 \(x_H = ((t_0, B^H_{t_0}), \dots, (t_n, B^H_{t_n})) \in \mathcal{S}(\mathbb{R}^2)\)는 FBM의 하나의 실현 경로다.
  • 비교 대상으로 Rescaled Range (R/S) method 결과도 Table 1에 포함된다.
    • 이는 학습 기반이 아닌, 수학적으로 유도된 전통적 추정 방법이다.
  • 딥러닝 기반 베이스라인:
    • RNN
    • GRU
    • LSTM
  • 시그니처 기반 베이스라인:
    • Neural-Sig (Figure 1a에 제시된 단순 시그니처 모델)
  • 제안된 딥 시그니처 모델:
    • DeepSigNet
      • 하나의 큰 Neural–Lift–Signature 블록 사용
    • DeeperSigNet
      • 세 개의 작은 Neural–Lift–Signature 블록을 사용한 더 깊은 구조
  • 관찰 결과:
    • 전통적인 시그니처 기반 모델은 전통적인 순환신경망(RNN 계열)보다 성능이 약간 낮다.
    • 반면, 딥 시그니처 모델(DeepSigNet, DeeperSigNet) 은 모든 비교 모델을 최소 한 자릿수(order of magnitude) 이상 성능으로 앞선다.

4.3 Non-Markovian Deep Reinforcement Learning

1) 무엇을 하려는가 (문제 설정)

  • 비마르코프적(non-Markovian) 강화학습 문제를 다룬다.
  • 최적 행동은 - 현재 상태 \(x_i\)만으로 결정되지 않고, - 과거 상태들의 이력(history) 에 의존한다.
  • 따라서 에이전트는 내부적으로 기억(memory) 을 유지해야 한다.

전통적인 Markov MDP 가정이 성립하지 않는 상황에서,

  • “경로 전체의 정보를 어떻게 압축하여 기억할 것인가”가 핵심 문제다.

2) 핵심 아이디어 요약

  • Deep Signature Model에 residual (skip) connection을 추가한 구조를 제안한다.
  • 이 구조는 다음 두 관점으로 해석된다.
    1. Signature를 memory로 사용하는 RNN
    2. Signature 기반 memory를 갖는 deep model

즉, signature가 과거 입력 전체를 요약한 상태(state) 역할을 한다.


3) 모델 정의 (시간 i에서의 연산)

학습 가능한 함수는 다음과 같다.

  • \(\phi_{\theta_1} : \mathbb{R}^d \to \mathbb{R}^e\)
  • \(f_{\theta_2} : \mathbb{R}^{d + (e^{N+1}-1)/(e-1)} \to \mathcal{A}\)
    (\(\mathcal{A}\)는 action space)

시간 \(i\)에서 입력 \(x_i \in \mathbb{R}^d\)가 주어지면:

  1. 입력 임베딩 \[ y_i = \phi_{\theta_1}(x_i) \]
  2. Signature 기반 memory 업데이트 \[ \sigma_i = \sigma_{i-1} \otimes \mathrm{Sig}_N((y_{i-1}, y_i)) \]
  • \(\otimes\)는 tensor product를 의미한다.
    • \(σ_{i−1}\) :과거 전체 경로의 signature (0차, 1차, …, N차 항들을 모두 포함)
    • \(Sig^N((y_{i−1}, y_i))\): 바로 직전 한 스텝 (y_{i−1} → y_i) 구간의 signature
  • 즉, “이번 한 스텝에서 일어난 변화”의 요약
  • 이 둘을 텐서곱으로 결합하면: 과거의 모든 항 × 현재 변화의 모든 항
    • 즉, 과거 패턴과 현재 변화의 모든 조합이 생성됨
  1. 행동 선택 \[ a_i = f_{\theta_2}(x_i, \sigma_i) \]여기서
  • \(y_i\)는 즉시 입력에서 추출된 feature,
  • \(\sigma_i\)과거 전체 \((y_1,\dots,y_i)\)를 요약한 memory,
  • \(a_i\)는 시간 \(i\)에서 제안된 행동이다.

4) 실험: Non-Markovian Mountain Car

  • 고전적인 Mountain Car 문제의 비마르코프적 변형을 사용한다.
  • 관측 제한:
    • 에이전트는 위치(position)만 관측한다.
    • 속도(velocity)는 관측하지 못한다.
  • 동일한 위치라도 과거 이동 방향에 따라 최적 행동이 달라지므로, 문제는 본질적으로 non-Markovian이다.

결과

  • 제안된 signature-memory 모델
    • 제한된 episode 수 내에서 학습에 성공한다.
  • 비교 대상인 RNN 모델은 유사한 파라미터 수를 가졌음에도 학습에 실패한다.

학습 방법은 다음과 같다.

  • Deep Q-Learning
  • 두 모델 모두 Q-function 근사기로 사용된다.

5. 한계 (Limitations)

(1) 계산 비용 문제

  • Signature 차원은 \(O(d^N)\)
  • Deep architecture에서는 연산량 급증

(2) Hyperparameter 복잡성

  • Truncation depth \(N\)
  • Lift 방식
  • Signature layer 개수
왜 중요한가

모델 설계 난이도가 높아진다.