Perplexity를 Cross-Entropy부터 끝까지 촘촘히 설명0) 목표: “PPL = exp(Cross-Entropy)”가 무슨 뜻인지Language Model이 데이터(정답 토큰들)에 부여하는 확률이 좋을수록 Cross-Entropy가 작아지고그 Cross-Entropy를 지수로 변환한 것이 Perplexity(PPL)라서 PPL도 같이 작아진다즉 “PPL은 확률예측 품질을 숫자로 재는 방법”이며, Cross-Entropy를 직관적 스케일(‘유효 선택지 수’)로 바꾼 것이다.1) 먼저: 모델이 뭘 예측하는가문장(토큰 시퀀스)을 \(x_{1:T}\)라고 하자.\(x_1, x_2, \dots, x_T\)는 토큰들이다.Autoregressive LM은 매 시점 \(t\)에“이전 토큰 \(x_{가 주어..