2026/02/09 2

REVIEW Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling

📋핵심Transformer의 self-attention은 모든 토큰쌍을 동시에 비교하므로 계산량이 \(O(L^2)\)로 커지고, 내부 구조도 복잡해진다고 보고, 이 논문은 그걸 안쓰는 대안을 제시한다. 각 토큰을 저차원으로 줄인 뒤, 가까운 두 토큰이 만드는 “평면(2차원 부분공간)”을 숫자 벡터(Plücker 좌표)로 바꿔 관계 특징으로 쓰고, 그 특징으로 토큰 표현을 업데이트한다. (가까운 두 토큰끼리만 비교해서 L^2->L로 줄어든 것) 그 결과, language modeling과 문장 분류에서 Transformer 대비 성능이 크게 뒤처지지 않으면서도, 계산 복잡도는 시퀀스 길이에 대해 \(O(L)\)로 선형 스케일링된다고 주장한다.1) 해결하고 싶은 문제 (Problem)표준 Transform..

딥러닝 논문 2026.02.09

수학 정의 앞에 항상 붙어 있는 말들의 뜻: 수학적 구조들의 기본 계층과 직관

짜증나게 수학 정의 앞에는 맨날 뭔 말인지 모르겠는 것들이 붙어있다. 대충 까이꺼 하면 될 것 같은데 수학자들은 너무 엄밀하다. 계속 눈에 띄어서 대수에 대해 생각해봤는데 JAVA의 인터페이스라고 생각하니 왜 수학쟁이들이 이렇게 엄밀하게 하려고 하는지 딱 이해가 되었다. 코딩쟁이인 나도 반복되는 클래스 만들 때 깔끔하게 인터페이스로 정리하는거 좋아하는데 수학자들도 마찬가지겠지!! 하나하나 그 정확한 뜻을 외우려고 하면 절대 못외우니, 직관적인 뜻만은 꼭 암기하려고 글을 써본다. 참고로 야메 수학이니 정확하게 맞지 않아도 넘어가주시길,,대수 축0) 한 줄 계층도체 \(k\) → \(k\)-벡터공간 \(V\) → \(k\)-대수 \(A\) → \(A\)-모듈 \(M\) → (선형)표현(= 숫자 시스템 → 그..

수학 2026.02.09