2026/02 17

[REVIEW] Parameter-Efficient Transfer Learning for NLP

1) 어떤 문제를 해결하고 싶은가목표는 Transfer Learning에서 “task가 많아질수록 모델 저장/학습 비용이 task 수에 비례해 폭증”하는 문제를 줄이는 것이다.대형 pre-trained model(예: BERT)을 각 downstream task마다 full fine-tuning하면, 사실상 task마다 새로운 모델 전체 사본이 필요해진다.online/streaming 환경(새 task가 순차적으로 계속 추가되는 환경)에서는,과거 task를 다시 같이 학습하지 않고도(sequential training)새 task를 추가하면서도저장/메모리/배포 비용이 과도하게 증가하지 않는(parameter-efficient)방식이 필요하다.왜 이 문제가 중요한가대형 backbone을 task마다 통째로..

[REVIEW] LLAMA-ADAPTER_EFFICIENT FINE-TUNING OF LARGE LANGUAGE MODELS WITH ZERO-INITIALIZED ATTENTION

(1) 이 논문이 해결하려는 문제문제Instruction-following LLM을 만들기 위해 LLaMA 같은 pretrained LLM을 full fine-tuning하면, 업데이트해야 할 parameter가 너무 커서 시간/compute/저장공간 비용이 크다.특히 Alpaca는 52K self-instruct data로 LLaMA-7B의 7B 전체 parameter를 fine-tune하여 성능은 좋지만, 이 방식은 replicable/transferable 관점에서 부담이 크다(태스크별로 거대한 체크포인트를 계속 만들어야 하다).목표pretrained LLaMA는 frozen으로 두고, 소수의 학습 가능한 모듈만 추가해 instruction tuning을 매우 빠르고 싸게 수행한다.동시에 단순한 l..

[REVIEW] Improving language models by retrieving from trillions of tokens

해결하려는 문제: Parameter scaling만으로는 비효율적이므로, 외부 텍스트 메모리(retrieval)로 “지식을 꺼내 쓰는” LM을 만든다문제의식대형 Language Model(LM)은 성능을 올리려면 보통 (1) 더 많은 training data (2) 더 많은 compute (3) 더 큰 parameter가 필요하다.그러나 많은 성능 향상이 “training data memorization”에서 오고, 이 과정에서 inference 비용(메모리/latency)도 같이 커진다.목표는 모델 parameter를 크게 늘리지 않고도 모델이 사실상 훨씬 큰 데이터 지식을 활용하게 만들어 perplexity/bpb를 낮추는 것이다.직관적 의미“기억”을 parameter에만 넣지 않고, 거대한 text..

[REVIEW] GLaM:Efficient Scaling of Language Models with Mixture-of-Experts.md

이 논문이 해결하려는 문제(Problem)문제의식: Language Model을 크게 만들면 성능이 좋아지지만, Dense model(매 token마다 모든 parameter를 계산)은 training/serving compute 및 에너지 비용이 급증한다는 한계가 있다.핵심 목표:GPT-3류 모델이 보여준 zero/one/few-shot in-context learning 성능을 유지하거나 개선하면서학습 에너지(training energy)와 추론 비용(inference FLOPs per token)을 낮추는 “효율적인 scaling”을 달성하려 한다.핵심 아이디어 방향: “모델의 총 capacity(총 파라미터 수)는 키우되, 실제 token별 계산량은 제한”하는 conditional compute ..

REVIEW Switch Transformers_Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Switch Transformers 핵심 정리1) 어떤 문제를 해결하고 싶은지Dense Transformer는 모든 입력에 동일 파라미터를 사용해 계산량(FLOPs) 대비 parameter count를 키우는 방식이 곧바로 연산/학습 시간 폭증으로 이어진다. (p.1, p.3)MoE(Mixture-of-Experts)는 입력(토큰)별로 일부 expert만 활성화해 “파라미터 수는 매우 크지만, 계산 비용은 거의 일정”한 sparse activation을 목표로 한다. 하지만 기존 MoE는routing/구현 복잡성device 간 communication 비용training instability(특히 large-scale, low precision)때문에 채택이 어렵다. (p.1, p.3)직관적 의미Dens..

KEYWORD 인공지능(NLP)에서 Perplexity란

Perplexity를 Cross-Entropy부터 끝까지 촘촘히 설명0) 목표: “PPL = exp(Cross-Entropy)”가 무슨 뜻인지Language Model이 데이터(정답 토큰들)에 부여하는 확률이 좋을수록 Cross-Entropy가 작아지고그 Cross-Entropy를 지수로 변환한 것이 Perplexity(PPL)라서 PPL도 같이 작아진다즉 “PPL은 확률예측 품질을 숫자로 재는 방법”이며, Cross-Entropy를 직관적 스케일(‘유효 선택지 수’)로 바꾼 것이다.1) 먼저: 모델이 뭘 예측하는가문장(토큰 시퀀스)을 \(x_{1:T}\)라고 하자.\(x_1, x_2, \dots, x_T\)는 토큰들이다.Autoregressive LM은 매 시점 \(t\)에“이전 토큰 \(x_{가 주어..

REVIEW BAYESIAN NEURAL CONTROLLED DIFFERENTIAL EQUATIONS FOR TREATMENT EFFECT ESTIMATION

1) 어떤 문제를 해결하고 싶은지Setting환자 \(i\)에 대해 continuous time \(t\in[0,\bar T]\)에서outcome \(Y_t\in\mathbb{R}\)covariates \(X_t\in\mathbb{R}^{d_x}\)treatment \(A_t\in\{0,1\}^{d_a}\)irregular sampling: \((Y_t,X_t)\)는 환자별 timestamp \(\{t^i_0,\dots,t^i_{m_i}\}\)에서만 관측됨(비정규 간격).치료는 연속시간에서 여러 번 발생 가능하므로 counting process \(N_t\)와 intensity \(\lambda(t)\)로 모델링.Estimation target새 환자 \(*\)의 과거 관측 history \(h^*_{\..

REVIEW Continuous Time Linear Positional Embedding for Irregular Time Series Forecasting

📋핵심Positional Embedding을 ax+b 형태로 둔다. a,b는 훈련 과정에서 정해지는 파라미터다. 2024년에 쓰인 Positional Embedding 논문에 RoPE(Rotary Positional Embedding) 내용이 없다는 게 상당히 아쉬운 부분이다. 그리고 사실 언급된 property를 꼭 지켜야하는 이유도 잘 납득이 되지 않는다. 그치만 NCDE로 주장을 뒷받침하는건 흥미로운 시도라고 생각한다.1) 어떤 문제를 해결하려는가Problem: Irregularly-sampled time series forecasting시계열은 \(T=\{(t_i,x_i)\}_{i=1}^N\), \(t_i \in \mathbb{R}\)이며 irregular sampling 됨.Transforme..

REVIEW Rough Transformers: Lightweight and Continuous Time Series Modelling through Signature Patching

📋핵심이 논문 진짜 별거 없고 트랜스포머에서 K,Q,V를 계산할 때 local Signature이랑 global Signature를 쓴다는 것임.1. 해결하고자 하는 문제현실 시계열 데이터는 보통irregular sampling(샘플링 간격 불균일)variable length(길이 가변)long-range dependency(먼 과거가 현재에 영향)high-frequency → very long sequence(길이 폭발)을 동시에 가진다.기존 모델의 병목RNN/GRU: 긴 의존성에서 학습이 불안정(대표적으로 vanishing gradient) → long-range 추출이 약하다.Neural ODE / Neural CDE / Neural RDE: continuous-time 처리는 가능하나, 긴 시계..