26년 1학기 오민환 교수님 강화학습 기초 수업을 듣고 필기한 내용이다.Lecture 1은 걍 수업 인트로니까 패스LECTURE 2Multi-armed BanditMulti-armed bandit 문제는 reinforcement learning에서 가장 단순한 형태의 의사결정 문제다. 여러 개의 선택지(arm)가 있고, 각 선택지는 보상을 발생시키는 확률 분포를 가진다. 목표는 시간이 지나면서 총 보상을 최대화하는 arm 선택 전략을 찾는 것이다.1. Multi-armed Bandit 문제의 설정슬롯머신이 여러 개 있다고 가정한다. 각 슬롯머신은 서로 다른 보상 분포를 가진다. 행동을 선택하면 보상이 즉시 관측된다.중요한 특징:행동은 미래 상태(state transition)에 영향을 주지 않는다.보상은..