📋핵심Transformer의 self-attention은 모든 토큰쌍을 동시에 비교하므로 계산량이 \(O(L^2)\)로 커지고, 내부 구조도 복잡해진다고 보고, 이 논문은 그걸 안쓰는 대안을 제시한다. 각 토큰을 저차원으로 줄인 뒤, 가까운 두 토큰이 만드는 “평면(2차원 부분공간)”을 숫자 벡터(Plücker 좌표)로 바꿔 관계 특징으로 쓰고, 그 특징으로 토큰 표현을 업데이트한다. (가까운 두 토큰끼리만 비교해서 L^2->L로 줄어든 것) 그 결과, language modeling과 문장 분류에서 Transformer 대비 성능이 크게 뒤처지지 않으면서도, 계산 복잡도는 시퀀스 길이에 대해 \(O(L)\)로 선형 스케일링된다고 주장한다.1) 해결하고 싶은 문제 (Problem)표준 Transform..