'2026/03/15 글 목록

강화학습 내용 정리 (Lecture 4~5)

LECTURE 4Dynamic ProgrammingDynamic Programming(DP)은 reinforcement learning 알고리즘을 이해하는 데 핵심적인 이론적 기반이다. 대부분의 현대 RL 알고리즘은 DP가 수행하는 효과를 환경 모델 없이, 더 적은 계산으로 근사하려는 방법이라고 볼 수 있다.1. Policies와 Value Functions정책(policy) \(\pi\)와 \(\pi'\)가 있을 때 다음이 성립하면 \(v_\pi(s) \ge v_{\pi'}(s) \quad \forall s \in S\) 정책 \(\pi\)가 \(\pi'\)보다 좋다. Optimal policy는 모든 정책보다 같거나 더 좋은 정책이다.그런데 과연 그런 정책이 존재할까?어떤 state에서는 policy..

카테고리 없음 2026.03.15

« 2026/03 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

예비 대학원생의 논문 리뷰 뽀개기

2026/03/15 1

티스토리툴바