해결하려는 문제: Parameter scaling만으로는 비효율적이므로, 외부 텍스트 메모리(retrieval)로 “지식을 꺼내 쓰는” LM을 만든다문제의식대형 Language Model(LM)은 성능을 올리려면 보통 (1) 더 많은 training data (2) 더 많은 compute (3) 더 큰 parameter가 필요하다.그러나 많은 성능 향상이 “training data memorization”에서 오고, 이 과정에서 inference 비용(메모리/latency)도 같이 커진다.목표는 모델 parameter를 크게 늘리지 않고도 모델이 사실상 훨씬 큰 데이터 지식을 활용하게 만들어 perplexity/bpb를 낮추는 것이다.직관적 의미“기억”을 parameter에만 넣지 않고, 거대한 text..