전체 글 61

[REVIEW] Not All Clients Are Equal_Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

📋핵심이 논문은 “각 사용자(클라이언트)가 서로 다른 멀티모달 작업을 하고(데이터가 다름), 심지어 서로 다른 모델을 쓰는(모델 구조/크기가 다름) 현실적인 연합학습 환경에서, 어떻게 서로 도와서 개인화 성능을 올릴까”를 다룬다.핵심 아이디어는 두 가지로 요약된다. 1. 아무나 섞지 말고, 나랑 비슷한 클라이언트 것만 많이 섞자각 클라이언트의 데이터(작업)가 얼마나 비슷한지 “관련도(relevance)”를 추정해서, 관련도가 높은 클라이언트의 업데이트는 크게, 낮은 클라이언트의 업데이트는 작게 반영한다. 그래서 서로 다른 작업을 무작정 평균내서 생기는 성능 하락(interference)을 줄인다. 2. 모델이 달라도 공유 가능한 ‘공통 부품’만 공유하자모델 구조가 다르면 보통 파라미터를 그대로 합칠 수..

딥러닝 논문 2026.03.06

REVIEW OASIS_Online Sample Selection for Continual Visual Instruction Tuning

목표는 Continual Instruction Tuning에서 스트림으로 들어오는 데이터 전부를 매번 학습하면 늦으니, 매 배치에서 진짜 중요한 샘플만 골라 빠르게 업데이트하는 것이다.핵심 아이디어는ORIS: 샘플의 “중요도”를 배치 내 순위(top-k)가 아니라, 과거까지의 통계(EMA/variance)로 정규화한 상대적 중요도(Z-score)로 보고, 그 값으로 확률적으로 선택해 배치마다 선택 개수가 유동적이게 만든다.SIREN: 이미 뽑힌 샘플과 gradient가 비슷한 샘플은 정보가 겹친다고 보고 점수를 깎아서, 중복을 줄이고 다양하게 뽑는다.결과적으로 일부(예: 25%)만 학습해도 거의 full-data 수준 성능을 내는 걸 목표로 한다.이 논문이 해결하려는 문제Continual Instruct..

REVIEW Risk-adaptive Activation Steering for Safe Multimodal Large Language Models

📋핵심“이미지 때문에 위험해질 수 있는 질문을 빨리 감지해서, 위험할 때만 모델의 ‘거절 모드’를 살짝(또는 크게) 켜는 방법”왜 이런 걸 하냐같은 질문이라도 이미지에 뭐가 있느냐에 따라 안전/위험이 갈린다.예: “이거 만드는 법 알려줘”가 의자 사진이면 괜찮지만, 폭발물 사진이면 위험하다.기존 방법은안전 프롬프트를 항상 붙여서 괜찮은 것도 거절하거나,답을 만들어놓고 여러 번 고치면서 느리다.이 논문 방법1) “이미지가 뭐냐”를 먼저 글로 요약시켜 붙인다모델이 이미지를 제대로 안 보고 넘어가는 경우가 있어서,아예 모델에게 “사진에 뭐가 있는지 한두 문장으로 말해봐”를 먼저 하게 하고,그 요약(visual context)을 원래 질문 앞에 붙여서 다시 질문한다.효과: 모델이 “이미지에 폭발물이 있네” 같..

[REVIEW] SCALE : Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

한마디로: (1) uncertainty로 vision encoder attention temperature를 바꾸고, (2) uncertainty로 action decoding을 greedy(top-1)에서 sampling으로 바꾼다.무엇을 해결하고 싶은가목표: Vision-Language-Action (VLA) model이 test time에 마주치는 perceptual ambiguity(유사한 distractor, 시야 혼란)와 action multimodality(여러 행동 후보 공존) 상황에서, 추가 training / verifier / multi-pass inference 없이 더 robust하게 동작하게 만드는 것이다.핵심 문제의식: 기존 VLA inference는 (1) vision enc..

옵시디언(obsidian) 글을 티스토리 html로 바꾸는 파이썬 코드

이제 옵시디언에 글을 쓰고 1초만에 딸깍!하고 티스토리에 올릴 수 있는 형태로 바꿀 수 있다! 1. pandoc과 파이썬을 설치한다. (모르면 방법은 지피티한테 물어본다.)2. 아래 코드를 convert_tstory.py 파일 안에 붙여넣는다. 이 py 파일은 Obsidian Vault 폴더 안에 (md 파일들과 같은 디렉토리) 넣어놓는다. (py 파일을 만드는 방법을 모르면 메모장에 이거 글 붙여넣고, 저장하면 convert_tstory.txt 파일이 생기는데, .txt를 .py로 바꿔주면 된다. 자기는 확장자명(.txt)이 뒤에 안보인다 하면 구글링을 해보면 된다.)3. 커맨드 창에python convert_tstory.py "글제목.md" 이걸 쳐넣는다. 글제목은 본인이 직접 자기 글 제목으로 바..

카테고리 없음 2026.03.04

[REVIEW] Perceiver : General Perception with Iterative Attention

1) 어떤 문제를 해결하고 싶은가목표는 modality-agnostic general perception architecture를 만드는 것이다. 즉 images/audio/video/point clouds 등 서로 다른 입력 형식을 거의 동일한 모델 구조로 처리하고 싶다는 문제의식이다.기존 Transformer를 perception 입력(특히 high-bandwidth input)에 직접 적용하면 self-attention 비용이 input length \(M\)에 대해 \(O(M^2)\)가 되어 계산/메모리 병목이 생긴다.ConvNet은 효율이 좋지만 grid/locality 같은 강한 inductive bias를 전제로 해서, 입력 구조가 바뀌면(예: audio, point cloud, multim..

딥러닝 논문 2026.03.04

[REVIEW] Flamingo : a Visual Language Model for Few-Shot Learning

(1) 어떤 문제를 해결하고 싶은가목표: multimodal(image/video + text) 모델이 few-shot in-context learning으로 새로운 시각-언어 태스크에 빠르게 적응하도록 만드는 것이다.“few-shot”은 태스크별 fine-tuning 없이, prompt에 (입력,정답) 예시를 몇 개(예: 4, 32 shots) 넣고 autoregressive generation으로 답을 생성하는 설정이다.문제의 핵심 난점:기존 CV 파이프라인은 대개 대량의 태스크별 라벨 데이터 + fine-tuning에 의존해서, 새로운 태스크/도메인에 빠르게 적응하기 어렵다.contrastive 기반 vision-language 모델(예: CLIP류)은 zero-shot 분류는 강하지만, 기본적으로..

대학수학 증명법 입문_How to prove it

대학수학에서 증명을 잘 하는 방법 내가 해석개론 시험을 보기 전에 이걸 알았더라면 탈탈 털리지 않았을텐데! 싶은 것을 모아봤다. 진짜 이거 몰라서 해석개론 채점 조교가 미친 악마 개짜증나는 쪼잔한 새끼로 보였는데, 지금 보니 꽤 후하게 채점해주셨다는 사실을 알 수 있다.. 근데 이런거 안알려주고 대뜸 시험에 낸 다음에 땡! 이러는건 다시 생각해도 짜증나긴 함. 알려주고 시험에 내야지 ㅅㅂ 수학에 트라우마 걸려서 손 뗄 뻔했잖아! 저 조교는 내가 뭐라고 써도 빵점 처리할 것 같고 너무 숨막히고 아무것도 못 적겠어서 기말에 거의 백지로 냈던 기억이 있습니다.. 다시 생각해도 끔찍하네 하여튼 중고등학교 수학을 꼼꼼히 공부했다는 가정 하에 1.2, 1.5, 2.1~2.3, 3.3 정도 보면 될 것 같습니다~ 수..

수학 2026.03.01

[REVIEW] Parameter-Efficient Transfer Learning for NLP

1) 어떤 문제를 해결하고 싶은가목표는 Transfer Learning에서 “task가 많아질수록 모델 저장/학습 비용이 task 수에 비례해 폭증”하는 문제를 줄이는 것이다.대형 pre-trained model(예: BERT)을 각 downstream task마다 full fine-tuning하면, 사실상 task마다 새로운 모델 전체 사본이 필요해진다.online/streaming 환경(새 task가 순차적으로 계속 추가되는 환경)에서는,과거 task를 다시 같이 학습하지 않고도(sequential training)새 task를 추가하면서도저장/메모리/배포 비용이 과도하게 증가하지 않는(parameter-efficient)방식이 필요하다.왜 이 문제가 중요한가대형 backbone을 task마다 통째로..

[REVIEW] LLAMA-ADAPTER_EFFICIENT FINE-TUNING OF LARGE LANGUAGE MODELS WITH ZERO-INITIALIZED ATTENTION

(1) 이 논문이 해결하려는 문제문제Instruction-following LLM을 만들기 위해 LLaMA 같은 pretrained LLM을 full fine-tuning하면, 업데이트해야 할 parameter가 너무 커서 시간/compute/저장공간 비용이 크다.특히 Alpaca는 52K self-instruct data로 LLaMA-7B의 7B 전체 parameter를 fine-tune하여 성능은 좋지만, 이 방식은 replicable/transferable 관점에서 부담이 크다(태스크별로 거대한 체크포인트를 계속 만들어야 하다).목표pretrained LLaMA는 frozen으로 두고, 소수의 학습 가능한 모듈만 추가해 instruction tuning을 매우 빠르고 싸게 수행한다.동시에 단순한 l..