전체 글 61

[REVIEW] Improving language models by retrieving from trillions of tokens

해결하려는 문제: Parameter scaling만으로는 비효율적이므로, 외부 텍스트 메모리(retrieval)로 “지식을 꺼내 쓰는” LM을 만든다문제의식대형 Language Model(LM)은 성능을 올리려면 보통 (1) 더 많은 training data (2) 더 많은 compute (3) 더 큰 parameter가 필요하다.그러나 많은 성능 향상이 “training data memorization”에서 오고, 이 과정에서 inference 비용(메모리/latency)도 같이 커진다.목표는 모델 parameter를 크게 늘리지 않고도 모델이 사실상 훨씬 큰 데이터 지식을 활용하게 만들어 perplexity/bpb를 낮추는 것이다.직관적 의미“기억”을 parameter에만 넣지 않고, 거대한 text..

[REVIEW] GLaM:Efficient Scaling of Language Models with Mixture-of-Experts.md

이 논문이 해결하려는 문제(Problem)문제의식: Language Model을 크게 만들면 성능이 좋아지지만, Dense model(매 token마다 모든 parameter를 계산)은 training/serving compute 및 에너지 비용이 급증한다는 한계가 있다.핵심 목표:GPT-3류 모델이 보여준 zero/one/few-shot in-context learning 성능을 유지하거나 개선하면서학습 에너지(training energy)와 추론 비용(inference FLOPs per token)을 낮추는 “효율적인 scaling”을 달성하려 한다.핵심 아이디어 방향: “모델의 총 capacity(총 파라미터 수)는 키우되, 실제 token별 계산량은 제한”하는 conditional compute ..

REVIEW Switch Transformers_Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Switch Transformers 핵심 정리1) 어떤 문제를 해결하고 싶은지Dense Transformer는 모든 입력에 동일 파라미터를 사용해 계산량(FLOPs) 대비 parameter count를 키우는 방식이 곧바로 연산/학습 시간 폭증으로 이어진다. (p.1, p.3)MoE(Mixture-of-Experts)는 입력(토큰)별로 일부 expert만 활성화해 “파라미터 수는 매우 크지만, 계산 비용은 거의 일정”한 sparse activation을 목표로 한다. 하지만 기존 MoE는routing/구현 복잡성device 간 communication 비용training instability(특히 large-scale, low precision)때문에 채택이 어렵다. (p.1, p.3)직관적 의미Dens..

KEYWORD 인공지능(NLP)에서 Perplexity란

Perplexity를 Cross-Entropy부터 끝까지 촘촘히 설명0) 목표: “PPL = exp(Cross-Entropy)”가 무슨 뜻인지Language Model이 데이터(정답 토큰들)에 부여하는 확률이 좋을수록 Cross-Entropy가 작아지고그 Cross-Entropy를 지수로 변환한 것이 Perplexity(PPL)라서 PPL도 같이 작아진다즉 “PPL은 확률예측 품질을 숫자로 재는 방법”이며, Cross-Entropy를 직관적 스케일(‘유효 선택지 수’)로 바꾼 것이다.1) 먼저: 모델이 뭘 예측하는가문장(토큰 시퀀스)을 \(x_{1:T}\)라고 하자.\(x_1, x_2, \dots, x_T\)는 토큰들이다.Autoregressive LM은 매 시점 \(t\)에“이전 토큰 \(x_{가 주어..

REVIEW BAYESIAN NEURAL CONTROLLED DIFFERENTIAL EQUATIONS FOR TREATMENT EFFECT ESTIMATION

1) 어떤 문제를 해결하고 싶은지Setting환자 \(i\)에 대해 continuous time \(t\in[0,\bar T]\)에서outcome \(Y_t\in\mathbb{R}\)covariates \(X_t\in\mathbb{R}^{d_x}\)treatment \(A_t\in\{0,1\}^{d_a}\)irregular sampling: \((Y_t,X_t)\)는 환자별 timestamp \(\{t^i_0,\dots,t^i_{m_i}\}\)에서만 관측됨(비정규 간격).치료는 연속시간에서 여러 번 발생 가능하므로 counting process \(N_t\)와 intensity \(\lambda(t)\)로 모델링.Estimation target새 환자 \(*\)의 과거 관측 history \(h^*_{\..

REVIEW Continuous Time Linear Positional Embedding for Irregular Time Series Forecasting

📋핵심Positional Embedding을 ax+b 형태로 둔다. a,b는 훈련 과정에서 정해지는 파라미터다. 2024년에 쓰인 Positional Embedding 논문에 RoPE(Rotary Positional Embedding) 내용이 없다는 게 상당히 아쉬운 부분이다. 그리고 사실 언급된 property를 꼭 지켜야하는 이유도 잘 납득이 되지 않는다. 그치만 NCDE로 주장을 뒷받침하는건 흥미로운 시도라고 생각한다.1) 어떤 문제를 해결하려는가Problem: Irregularly-sampled time series forecasting시계열은 \(T=\{(t_i,x_i)\}_{i=1}^N\), \(t_i \in \mathbb{R}\)이며 irregular sampling 됨.Transforme..

REVIEW Rough Transformers: Lightweight and Continuous Time Series Modelling through Signature Patching

📋핵심이 논문 진짜 별거 없고 트랜스포머에서 K,Q,V를 계산할 때 local Signature이랑 global Signature를 쓴다는 것임.1. 해결하고자 하는 문제현실 시계열 데이터는 보통irregular sampling(샘플링 간격 불균일)variable length(길이 가변)long-range dependency(먼 과거가 현재에 영향)high-frequency → very long sequence(길이 폭발)을 동시에 가진다.기존 모델의 병목RNN/GRU: 긴 의존성에서 학습이 불안정(대표적으로 vanishing gradient) → long-range 추출이 약하다.Neural ODE / Neural CDE / Neural RDE: continuous-time 처리는 가능하나, 긴 시계..

REVIEW ContiFormer: Continuous-Time Transformer for Irregular Time Series Modeling

ContiFormer가 풀려는 문제Irregular time series(불규칙 샘플링, missing observation, variable time gap)에서 다음 두 목표를 동시에 달성하려 한다.관측들 사이의 time-evolving relationship(관측 간 상호작용/의존성)이 복잡하게 변하는 것을 잘 포착한다.데이터 생성 과정이 continuous-time dynamic system이라는 관점에서, 출력이 (almost) continuous & smooth trajectory가 되도록 모델링한다.논문이 보는 핵심 난점은 “관측 간 관계 modeling(Transformer 강점)”과 “연속 시간 dynamics(ODE/CDE 강점)”를 한 모델에서 함께 만족시키기 어렵다는 점이다.직관적 ..

REVIEW Neural Rough Differential Equations for Long Time Series

1) 해결하고자 하는 문제문제: long time series에서 Neural CDE의 계산 병목과 성능 저하Neural CDE는 관측 시계열 \(x=((t_0,x_0),\dots,(t_n,x_n))\)을 연속 경로 \(X:[t_0,t_n]\to\mathbb{R}^v\)로 보간한 뒤, hidden state \(Z\)를 다음 CDE로 정의한다:\(Z_a=\xi,\; Z_t=Z_a+\int_a^t f(Z_s)\,dX_s\)\(X\)가 differentiable이면\(\int_a^t f(Z_s)\,dX_s=\int_a^t f(Z_s)\dot X_s ds\)로 바뀌어 ODE solver로 계산한다.실제 구현에서는\(Z_t=Z_{t_0}+\int_{t_0}^t g_{\theta,X}(Z_s,s)\,ds\),\(..