2026/03/04 3

[REVIEW] SCALE : Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

한마디로: (1) uncertainty로 vision encoder attention temperature를 바꾸고, (2) uncertainty로 action decoding을 greedy(top-1)에서 sampling으로 바꾼다.무엇을 해결하고 싶은가목표: Vision-Language-Action (VLA) model이 test time에 마주치는 perceptual ambiguity(유사한 distractor, 시야 혼란)와 action multimodality(여러 행동 후보 공존) 상황에서, 추가 training / verifier / multi-pass inference 없이 더 robust하게 동작하게 만드는 것이다.핵심 문제의식: 기존 VLA inference는 (1) vision enc..

옵시디언(obsidian) 글을 티스토리 html로 바꾸는 파이썬 코드

이제 옵시디언에 글을 쓰고 1초만에 딸깍!하고 티스토리에 올릴 수 있는 형태로 바꿀 수 있다! 1. pandoc과 파이썬을 설치한다. (모르면 방법은 지피티한테 물어본다.)2. 아래 코드를 convert_tstory.py 파일 안에 붙여넣는다. 이 py 파일은 Obsidian Vault 폴더 안에 (md 파일들과 같은 디렉토리) 넣어놓는다. (py 파일을 만드는 방법을 모르면 메모장에 이거 글 붙여넣고, 저장하면 convert_tstory.txt 파일이 생기는데, .txt를 .py로 바꿔주면 된다. 자기는 확장자명(.txt)이 뒤에 안보인다 하면 구글링을 해보면 된다.)3. 커맨드 창에python convert_tstory.py "글제목.md" 이걸 쳐넣는다. 글제목은 본인이 직접 자기 글 제목으로 바..

카테고리 없음 2026.03.04

[REVIEW] Perceiver : General Perception with Iterative Attention

1) 어떤 문제를 해결하고 싶은가목표는 modality-agnostic general perception architecture를 만드는 것이다. 즉 images/audio/video/point clouds 등 서로 다른 입력 형식을 거의 동일한 모델 구조로 처리하고 싶다는 문제의식이다.기존 Transformer를 perception 입력(특히 high-bandwidth input)에 직접 적용하면 self-attention 비용이 input length \(M\)에 대해 \(O(M^2)\)가 되어 계산/메모리 병목이 생긴다.ConvNet은 효율이 좋지만 grid/locality 같은 강한 inductive bias를 전제로 해서, 입력 구조가 바뀌면(예: audio, point cloud, multim..

딥러닝 논문 2026.03.04