'2026/03/26 글 목록

강화학습 내용 정리 (Lecture 6~7)

LECTURE 6Monte Carlo MethodsMonte Carlo, MC는 환경의 complete model을 모를 때도 sample experience만으로 value를 학습하는 방법이다.여기서 경험은 episode에서 얻은 sample sequence, 즉 \((s,a,r,s')\)의 연속이다.이 방법은 episodic, undiscounted setting에서 소개되며, update는 episode-by-episode로 일어난다.핵심 아이디어는 각 state 또는 state-action pair에 대해 관측된 return들을 모아서 평균내는 것이다.관점상으로는 week 1의 bandit methods와 비슷하게, sample을 모아 평균으로 value를 추정한다.Dynamic Programmi..

딥러닝 논문/강화학습 2026.03.26

« 2026/03 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

예비 대학원생의 논문 리뷰 뽀개기

2026/03/26 1

티스토리툴바