Kidger, Patrick, Patric Bonnier, Imanol Perez Arribas, Cristopher Salvi, Terry Lyons. “Deep Signature Transforms”. Advances in Neural Information Processing Systems 32 (2019년). https://papers.nips.cc/paper_files/paper/2019/hash/d2cdf047a6674cef251d56544a3cf029-Abstract.html.
Deep Signature Transforms
연구 목표 개요
이 논문의 목표는 Signature Transform을
기존처럼 고정된 전처리(feature transformation)로 사용하는 방식에서 벗어나,
이를 Neural Network 내부에서 학습 가능한 구성 요소(layer)로 일반화하는 데 있다.
구체적으로는 다음 질문에 답하고자 한다.
- Signature의 강력한 이론적 성질(uniqueness, universal nonlinearity, reparameterization invariance)을
딥러닝의 end-to-end 학습 구조 안으로 어떻게 통합할 수 있는가? - Truncated signature의 한계와 hand-crafted augmentation 문제를
데이터 기반 학습으로 해결할 수 있는가? - Signature를 여러 번, 깊게(deeply) 사용할 수 있는 구조를 만들 수 있는가?
직관적 의미
Signature를 “한 번 계산하고 끝나는 특징”이 아니라
neural network 안에서 representation을 형성하는 핵심 연산으로 쓰고자 한다.
왜 중요한가
순차 데이터(stream, path)는 많은 영역에서 핵심적이지만,
이론적 보장과 딥러닝의 표현력을 동시에 만족하는 일반적 프레임워크는 부족했다.
이 논문은 그 간극을 메우려는 시도이다.
선행연구: Signature 기반 접근의 구체적 유형
1. Signature를 고정 Feature Transformation으로 사용하는 접근
가장 전통적인 접근은 다음과 같다.
- 입력: 순차 데이터(stream) \(x = (x_1,\dots,x_n)\)
- 변환: truncated signature \(Sig_N(x)\)
- 학습: \(Sig_N(x)\)를 입력으로 하는 회귀/분류 모델
즉, \[ x \;\longrightarrow\; Sig_N(x) \;\longrightarrow\; f_\theta(Sig_N(x)) \] 의 구조이다.
직관적 의미
Signature를 Fourier transform이나 wavelet transform처럼
“표현을 바꿔주는 도구”로 사용한다.
왜 중요한가
Signature는 path 공간에서 매우 풍부한 표현을 제공하므로,
원본 데이터보다 학습이 쉬운 공간을 제공할 수 있다.
이론적 근거
이 접근은 signature의 다음 성질에 의존한다.
- Uniqueness: signature는 path를 (거의) 유일하게 결정한다.
- Universal nonlinearity:
path에 대한 임의의 연속 함수는 signature의 선형 함수로 근사 가능하다. - Time reparameterization invariance:
데이터가 언제 관측되었는지보다 어떤 순서로 변화했는지에 집중한다.
이 성질들은 “선형 모델 + signature”만으로도
매우 넓은 함수족을 근사할 수 있음을 의미한다.
실무적 구현 방식
- Signature는 사전 계산(preprocessing) 된다.
- 학습 중에는 signature를 다시 계산하지 않는다.
- 계산 비용은 학습 이전 단계에 집중된다.
이 방법의 한계:
- Signature는 본질적으로 무한 차원 → 반드시 depth \(N\)에서 truncation 필요
- 항의 개수는 \(\sum_{k=0}^N d^k\)로 급격히 증가
- 어떤 \(N\)이 충분한지 이론적으로 명확하지 않다.
2. Truncation 문제를 완화하기 위한 Augmentation 기반 접근
Truncated signature의 한계를 보완하기 위해
입력 stream 자체를 변형한 뒤 signature를 취하는 방식이 제안되었다.
핵심 아이디어는 다음과 같다.
- 고차 signature 정보를
- 저차 signature 항으로 “끌어내릴” 수 있도록
- 입력을 확장(augment)하자.
사전 정의된 feature map \(\Phi : \mathbb{R}^d \to \mathbb{R}^e\)를 사용한다.
\[ x = (x_1,\dots,x_n) \;\longrightarrow\; (\Phi(x_1),\dots,\Phi(x_n)) \;\longrightarrow\; Sig_N(\Phi(x)) \]
대표적인 예는 \[ \Phi(x) = (x, \varphi(x)) \] 형태이다. 예를 들면 이런 식이다: \(x=(x_1, ..., x_n) \rightarrow \Phi(x) = ((x_1, \varphi(x_1)), (x_2, \varphi(x_2)), ..., (x_N, \varphi(x_N))\) 원본 x 뒤에 새로운 좌표 \(\varphi\)(x)를 붙이는 거다!
직관적 의미
입력을 더 풍부한 좌표계로 올린 뒤,
같은 depth의 signature로 더 많은 정보를 담게 한다.
왜 중요한가
Depth를 무작정 키우지 않고도
표현력을 늘릴 수 있는 실용적 방법이다.
기존 연구에서의 활용 방식
- \(\Phi\)는 사람이 설계(hand-crafted)
- 여러 augmentation 후보를 실험적으로 비교
- 문제별로 다른 휴리스틱 사용
근본적 한계
- 어떤 \(\Phi\)가 좋은지 사전에 알 수 없다.
- 좋은 \(\Phi\)는 데이터 의존적이다.
- \(\Phi\) 자체는 학습되지 않는다.
3. 기존 접근들의 공통 구조적 한계
(1) Signature는 항상 “한 번만” 사용됨
- Signature를 취하면 stream 구조가 사라진다.
- 따라서 signature layer를 여러 번 쌓는 것이 불가능했다.
(2) Neural Network와의 결합이 제한적
- Signature는 네트워크 외부에서 계산
- 학습 과정에서 signature가 변하지 않는다.
- Representation learning의 핵심 자유도를 스스로 제거한 셈이다.
4. 요약: 기존 연구의 위치
기존 연구는 다음 범위 안에 머물러 있었다.
- Signature = 고정 feature map
- Augmentation = hand-crafted
- Neural Network = signature 이후에만 위치
이 논문은 위 구조를 깨고,
signature 자체를 학습 가능한 deep model의 내부 구성 요소로 끌어올리는 것을 목표로 한다.
3. 이 논문의 새로운 기여 (Contributions)
(1) Signature Transform을 Neural Network Layer로 재정의
기존 접근
- Signature transform은 stream 전체를 한 번에 입력으로 받아
- 고정 길이 벡터를 출력하는 사전 feature transformation이었다.
- 학습 과정에서 signature는 변하지 않는다.
이 논문의 재정의
논문은 signature를 명시적인 neural network layer로 해석한다.
- 입력 tensor \[ x \in \mathbb{R}^{b \times d \times n} \] (batch size \(b\), channel \(d\), time steps \(n\))
- 출력 tensor \[ Sig_N(x) \in \mathbb{R}^{b \times \sum_{k=0}^N d^k} \] 이는 네트워크 관점에서
- 시간 축 전체를 따라 정보를 집약하고
- 순서(order)를 보존한 채
- 고정 차원의 representation으로 변환하는 연산이다.
논문은 이 연산을 pooling operation으로 해석한다.
직관적 의미
Convolutional network에서 pooling이 공간 정보를 요약하듯,
Signature는 시간에 따른 변화의 순서 구조를 요약한다.
왜 중요한가
Signature가 전처리 결과가 아니라
forward/backward pass 안에서 작동하는 layer가 되면서,
다른 neural layer들과 결합된 end-to-end 학습이 가능해진다.
(2) Learnable Augmentation \(\Phi_\theta\)의 도입
기존 접근의 한계
기존 연구에서 augmentation \(\Phi\)는
- 사람이 설계한 고정 함수
- 문제별 휴리스틱
이었다.
즉, \[ x \;\to\; \Phi(x) \;\to\; Sig_N(\Phi(x)) \] 에서 \(\Phi\)는 학습 대상이 아니었다.
이 논문의 제안
논문은 augmentation을 \[ \Phi_\theta \] 로 두고, trainable neural network로 일반화한다.
유일한 구조적 제약은 다음이다.
- \(\Phi_\theta\)는 stream-preserving이어야 한다.
이를 만족하는 구체적 형태로 논문은 다음을 제시한다.
- Pointwise network \[ \Phi(x) = (\Phi_\theta(x_1), \dots, \Phi_\theta(x_n)) \]
- Sliding window / 1D convolution 기반 network
- Recurrent network (memory 포함)
직관적 의미
Signature 이전에 neural network가 먼저
“어떤 representation이 중요한지”를 학습하도록 한다.
왜 중요한가
Truncated signature의 표현력 한계를
사람의 설계가 아니라 데이터 기반 학습으로 보완한다.
이는 signature를 진정한 end-to-end 모델 구성 요소로 만든 핵심 장치이다.
(3) Lift 개념 도입: Stream-preserving Signatures
기존 구조의 근본적 제약
Signature transform은
- stream을 입력으로 받아
- stream이 아닌 통계량 벡터를 출력한다.
즉, 한 번 적용하면 시간 구조가 소멸한다.
이 때문에 signature를 여러 번 쌓는 deep architecture가 불가능했다.
Lift의 도입
논문은 이를 해결하기 위해 lift \[ \ell : S(\mathbb{R}^d) \to S(S(\mathbb{R}^e)) \] 를 도입한다.
Lift는 하나의 stream을
- 여러 개의 sub-stream으로 변환한다.
대표적 예시는 다음과 같다.
- Expanding window
\[ (x_1,\dots,x_n) \mapsto (y_2, y_3, \dots, y_n), \quad y_k = (x_1,\dots,x_k) \] - Sliding window
- Segmentation
각 sub-stream에 signature를 적용하면 \[ (Sig_N(\ell_1(x)), \dots, Sig_N(\ell_v(x))) \] 이라는 새로운 stream이 생성된다.
직관적 의미
Signature로 stream을 요약하되,
그 요약 결과를 다시 시간 순서로 배열한다.
왜 중요한가
Signature를 사용한 이후에도 stream 구조가 유지되므로,
Signature layer를 여러 번 반복 적용할 수 있다.
(4) Deep Signature Model의 일반적 정식화
앞선 세 요소를 결합해 논문은 Deep Signature Model을 정의한다.
일반적인 구조는 다음과 같다.
\[ x \;\xrightarrow{\Phi_{\theta_1}}\; \xrightarrow{\ell_1}\; \xrightarrow{Sig_{N_1}}\; \xrightarrow{\Phi_{\theta_2}}\; \xrightarrow{\ell_2}\; \xrightarrow{Sig_{N_2}}\; \cdots\; \xrightarrow{f_{\theta_{k+1}}} \]
여기서
- \(\Phi_{\theta_i}\): stream-preserving neural networks
- \(\ell_i\): lifts
- \(Sig_{N_i}\): truncated signature layers
- \(f_{\theta_{k+1}}\): 최종 예측 network
논문은 다음을 명시적으로 주장한다.
- 이 구조는
- neural network의 universal approximation 성질과
- signature의 universal nonlinearity 성질을 결합한다.
- 따라서 이론적 표현력은 유지되면서
- 실제로는 deep, hierarchical representation learning이 가능해진다.
왜 중요한가
Signature를 “한 번 쓰는 수학적 도구”에서
딥러닝의 계층적 표현 학습을 구성하는 기본 블록으로 승격시킨다.
기여 요약
이 논문의 새로운 기여는 다음 네 가지로 요약된다.
- Signature를 pooling layer로 재정의
- Augmentation을 학습 가능한 \(\Phi_\theta\)로 일반화
- Lift를 통해 stream 구조를 보존
- 이를 결합한 Deep Signature Model의 정식화
한 문장 요약
이 논문은 signature를 전처리 기법이 아니라
학습 가능한 deep neural architecture의 핵심 구성 요소로 전환시킨 연구이다.
4. 실험
4.1 확률과정에 대한 생성 모델 (Generative model)
- 시계열/경로 데이터의 분포(distribution) 를 학습한다.
- 랜덤 노이즈를 입력으로 받아 실제 데이터와 통계적으로 구분하기 어려운 새로운 경로를 생성하는 것이 목표다.
- 입력 스트림은 time-augmented Brownian motion: \(B = ((t_1,B_{t_1}),\dots,(t_n,B_{t_n})) \in \mathcal{S}(\mathbb{R}^2)\)
- GMMN (Generative Moment Matching Network) 를 이용
- loss가 분포 간 거리인 생성형 모델. kernel MMD (Maximum Mean Discrepancy)로 거리를 측정.
- 커널을 signature inner product 기반으로 정의한다.
- 커널 정의: \(k(x,y) = \langle \mathrm{Sig}_N(\lambda_x x),\ \mathrm{Sig}_N(\lambda_y y)\rangle\)
- \(\lambda_x, \lambda_y\)는 RKHS kernel 조건을 만족시키기 위한 정규화 상수다.
- MMD loss (논문 표기 \(T\)): \[ T = \frac{1}{n^2}\sum k(x^{(i)},x^{(j)}) -\frac{2}{nm}\sum k(x^{(i)},y^{(j)}) +\frac{1}{m^2}\sum k(y^{(i)},y^{(j)}) \]
- 생성 샘플 \(x^{(i)}\)와 실제 샘플 \(y^{(j)}\)의 분포 차이를 측정한다.
- Generator 구조 (deep signature model의 특수형): \(x = (f_{\theta_2} \circ \mathrm{Sig}_N \circ \ell \circ \phi_{\theta_1})(B)\) - \(\phi_{\theta_1}\), \(f_{\theta_2}\): stream-preserving neural network - \(\ell\): lift - 중간에 signature 연산을 삽입해 경로를 생성한다.
실험 설정 및 결과
- 데이터: Ornstein–Uhlenbeck (OU) process 실현값 1024개.
- 학습 결과 MMD loss가 \(6.6 \times 10^{-4}\)까지 감소.
- 논문 주장:
- MMD 값이 매우 작아 생성 경로와 실제 OU 경로가 통계적으로 거의 구분 불가능하다.
4.2 Fractional Brownian Motion에서의 지도학습 (Hurst parameter 추정)
- Fractional Brownian motion (FBM)은 Brownian motion을 일반화한 Gaussian process로,
\(B^H : [0,1) \to \mathbb{R}\) 형태로 정의된다. - FBM은 Hurst parameter \(H \in (0,1)\) 에 의해 결정된다.
- FBM 경로로부터 Hurst parameter를 추정하는 것은 비자명한 문제로 알려져 있다.
- 이 논문에서는 다음 회귀 문제를 학습한다.\(x_H \mapsto H\)
- 여기서 \(x_H = ((t_0, B^H_{t_0}), \dots, (t_n, B^H_{t_n})) \in \mathcal{S}(\mathbb{R}^2)\)는 FBM의 하나의 실현 경로다.
- 비교 대상으로 Rescaled Range (R/S) method 결과도 Table 1에 포함된다.
- 이는 학습 기반이 아닌, 수학적으로 유도된 전통적 추정 방법이다.
- 딥러닝 기반 베이스라인:
- RNN
- GRU
- LSTM
- 시그니처 기반 베이스라인:
- Neural-Sig (Figure 1a에 제시된 단순 시그니처 모델)
- 제안된 딥 시그니처 모델:
- DeepSigNet
- 하나의 큰 Neural–Lift–Signature 블록 사용
- DeeperSigNet
- 세 개의 작은 Neural–Lift–Signature 블록을 사용한 더 깊은 구조
- DeepSigNet
- 관찰 결과:
- 전통적인 시그니처 기반 모델은 전통적인 순환신경망(RNN 계열)보다 성능이 약간 낮다.
- 반면, 딥 시그니처 모델(DeepSigNet, DeeperSigNet) 은 모든 비교 모델을 최소 한 자릿수(order of magnitude) 이상 성능으로 앞선다.
4.3 Non-Markovian Deep Reinforcement Learning
1) 무엇을 하려는가 (문제 설정)
- 비마르코프적(non-Markovian) 강화학습 문제를 다룬다.
- 최적 행동은 - 현재 상태 \(x_i\)만으로 결정되지 않고, - 과거 상태들의 이력(history) 에 의존한다.
- 따라서 에이전트는 내부적으로 기억(memory) 을 유지해야 한다.
전통적인 Markov MDP 가정이 성립하지 않는 상황에서,
- “경로 전체의 정보를 어떻게 압축하여 기억할 것인가”가 핵심 문제다.
2) 핵심 아이디어 요약
- Deep Signature Model에 residual (skip) connection을 추가한 구조를 제안한다.
- 이 구조는 다음 두 관점으로 해석된다.
- Signature를 memory로 사용하는 RNN
- Signature 기반 memory를 갖는 deep model
즉, signature가 과거 입력 전체를 요약한 상태(state) 역할을 한다.
3) 모델 정의 (시간 i에서의 연산)
학습 가능한 함수는 다음과 같다.
- \(\phi_{\theta_1} : \mathbb{R}^d \to \mathbb{R}^e\)
- \(f_{\theta_2} : \mathbb{R}^{d + (e^{N+1}-1)/(e-1)} \to \mathcal{A}\)
(\(\mathcal{A}\)는 action space)
시간 \(i\)에서 입력 \(x_i \in \mathbb{R}^d\)가 주어지면:
- 입력 임베딩 \[ y_i = \phi_{\theta_1}(x_i) \]
- Signature 기반 memory 업데이트 \[ \sigma_i = \sigma_{i-1} \otimes \mathrm{Sig}_N((y_{i-1}, y_i)) \]
- \(\otimes\)는 tensor product를 의미한다.
- \(σ_{i−1}\) :과거 전체 경로의 signature (0차, 1차, …, N차 항들을 모두 포함)
- \(Sig^N((y_{i−1}, y_i))\): 바로 직전 한 스텝
(y_{i−1} → y_i)구간의 signature
- 즉, “이번 한 스텝에서 일어난 변화”의 요약
- 이 둘을 텐서곱으로 결합하면: 과거의 모든 항 × 현재 변화의 모든 항
- 즉, 과거 패턴과 현재 변화의 모든 조합이 생성됨
- 행동 선택 \[ a_i = f_{\theta_2}(x_i, \sigma_i) \]여기서
- \(y_i\)는 즉시 입력에서 추출된 feature,
- \(\sigma_i\)는 과거 전체 \((y_1,\dots,y_i)\)를 요약한 memory,
- \(a_i\)는 시간 \(i\)에서 제안된 행동이다.
4) 실험: Non-Markovian Mountain Car
- 고전적인 Mountain Car 문제의 비마르코프적 변형을 사용한다.
- 관측 제한:
- 에이전트는 위치(position)만 관측한다.
- 속도(velocity)는 관측하지 못한다.
- 동일한 위치라도 과거 이동 방향에 따라 최적 행동이 달라지므로, 문제는 본질적으로 non-Markovian이다.
결과
- 제안된 signature-memory 모델은
- 제한된 episode 수 내에서 학습에 성공한다.
- 비교 대상인 RNN 모델은 유사한 파라미터 수를 가졌음에도 학습에 실패한다.
학습 방법은 다음과 같다.
- Deep Q-Learning
- 두 모델 모두 Q-function 근사기로 사용된다.
5. 한계 (Limitations)
(1) 계산 비용 문제
- Signature 차원은 \(O(d^N)\)
- Deep architecture에서는 연산량 급증
(2) Hyperparameter 복잡성
- Truncation depth \(N\)
- Lift 방식
- Signature layer 개수
왜 중요한가
모델 설계 난이도가 높아진다.