'2026/03/13 글 목록

강화학습 내용 정리 (Lecture 1~3)

26년 1학기 오민환 교수님 강화학습 기초 수업을 듣고 필기한 내용이다.Lecture 1은 걍 수업 인트로니까 패스LECTURE 2Multi-armed BanditMulti-armed bandit 문제는 reinforcement learning에서 가장 단순한 형태의 의사결정 문제다. 여러 개의 선택지(arm)가 있고, 각 선택지는 보상을 발생시키는 확률 분포를 가진다. 목표는 시간이 지나면서 총 보상을 최대화하는 arm 선택 전략을 찾는 것이다.1. Multi-armed Bandit 문제의 설정슬롯머신이 여러 개 있다고 가정한다. 각 슬롯머신은 서로 다른 보상 분포를 가진다. 행동을 선택하면 보상이 즉시 관측된다.중요한 특징:행동은 미래 상태(state transition)에 영향을 주지 않는다.보상은..

딥러닝 논문/강화학습 2026.03.13

« 2026/03 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

예비 대학원생의 논문 리뷰 뽀개기

2026/03/13 2

티스토리툴바