2026/02/27 5

[REVIEW] Parameter-Efficient Transfer Learning for NLP

1) 어떤 문제를 해결하고 싶은가목표는 Transfer Learning에서 “task가 많아질수록 모델 저장/학습 비용이 task 수에 비례해 폭증”하는 문제를 줄이는 것이다.대형 pre-trained model(예: BERT)을 각 downstream task마다 full fine-tuning하면, 사실상 task마다 새로운 모델 전체 사본이 필요해진다.online/streaming 환경(새 task가 순차적으로 계속 추가되는 환경)에서는,과거 task를 다시 같이 학습하지 않고도(sequential training)새 task를 추가하면서도저장/메모리/배포 비용이 과도하게 증가하지 않는(parameter-efficient)방식이 필요하다.왜 이 문제가 중요한가대형 backbone을 task마다 통째로..

[REVIEW] LLAMA-ADAPTER_EFFICIENT FINE-TUNING OF LARGE LANGUAGE MODELS WITH ZERO-INITIALIZED ATTENTION

(1) 이 논문이 해결하려는 문제문제Instruction-following LLM을 만들기 위해 LLaMA 같은 pretrained LLM을 full fine-tuning하면, 업데이트해야 할 parameter가 너무 커서 시간/compute/저장공간 비용이 크다.특히 Alpaca는 52K self-instruct data로 LLaMA-7B의 7B 전체 parameter를 fine-tune하여 성능은 좋지만, 이 방식은 replicable/transferable 관점에서 부담이 크다(태스크별로 거대한 체크포인트를 계속 만들어야 하다).목표pretrained LLaMA는 frozen으로 두고, 소수의 학습 가능한 모듈만 추가해 instruction tuning을 매우 빠르고 싸게 수행한다.동시에 단순한 l..

[REVIEW] Improving language models by retrieving from trillions of tokens

해결하려는 문제: Parameter scaling만으로는 비효율적이므로, 외부 텍스트 메모리(retrieval)로 “지식을 꺼내 쓰는” LM을 만든다문제의식대형 Language Model(LM)은 성능을 올리려면 보통 (1) 더 많은 training data (2) 더 많은 compute (3) 더 큰 parameter가 필요하다.그러나 많은 성능 향상이 “training data memorization”에서 오고, 이 과정에서 inference 비용(메모리/latency)도 같이 커진다.목표는 모델 parameter를 크게 늘리지 않고도 모델이 사실상 훨씬 큰 데이터 지식을 활용하게 만들어 perplexity/bpb를 낮추는 것이다.직관적 의미“기억”을 parameter에만 넣지 않고, 거대한 text..

[REVIEW] GLaM:Efficient Scaling of Language Models with Mixture-of-Experts.md

이 논문이 해결하려는 문제(Problem)문제의식: Language Model을 크게 만들면 성능이 좋아지지만, Dense model(매 token마다 모든 parameter를 계산)은 training/serving compute 및 에너지 비용이 급증한다는 한계가 있다.핵심 목표:GPT-3류 모델이 보여준 zero/one/few-shot in-context learning 성능을 유지하거나 개선하면서학습 에너지(training energy)와 추론 비용(inference FLOPs per token)을 낮추는 “효율적인 scaling”을 달성하려 한다.핵심 아이디어 방향: “모델의 총 capacity(총 파라미터 수)는 키우되, 실제 token별 계산량은 제한”하는 conditional compute ..

REVIEW Switch Transformers_Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Switch Transformers 핵심 정리1) 어떤 문제를 해결하고 싶은지Dense Transformer는 모든 입력에 동일 파라미터를 사용해 계산량(FLOPs) 대비 parameter count를 키우는 방식이 곧바로 연산/학습 시간 폭증으로 이어진다. (p.1, p.3)MoE(Mixture-of-Experts)는 입력(토큰)별로 일부 expert만 활성화해 “파라미터 수는 매우 크지만, 계산 비용은 거의 일정”한 sparse activation을 목표로 한다. 하지만 기존 MoE는routing/구현 복잡성device 간 communication 비용training instability(특히 large-scale, low precision)때문에 채택이 어렵다. (p.1, p.3)직관적 의미Dens..