예비 대학원생의 논문 리뷰 뽀개기

  • 홈
  • 태그
  • 방명록

2026/03/15 1

강화학습 내용 정리 (Lecture 4~5)

LECTURE 4Dynamic ProgrammingDynamic Programming(DP)은 reinforcement learning 알고리즘을 이해하는 데 핵심적인 이론적 기반이다. 대부분의 현대 RL 알고리즘은 DP가 수행하는 효과를 환경 모델 없이, 더 적은 계산으로 근사하려는 방법이라고 볼 수 있다.1. Policies와 Value Functions정책(policy) \(\pi\)와 \(\pi'\)가 있을 때 다음이 성립하면 \(v_\pi(s) \ge v_{\pi'}(s) \quad \forall s \in S\) 정책 \(\pi\)가 \(\pi'\)보다 좋다. Optimal policy는 모든 정책보다 같거나 더 좋은 정책이다.그런데 과연 그런 정책이 존재할까?어떤 state에서는 policy..

카테고리 없음 2026.03.15
이전
1
다음
더보기
프로필사진

예비 대학원생의 논문 리뷰 뽀개기

서울대 경제학과 22학번 이지원의 블로그 입니다.

  • 분류 전체보기 (61)
    • 수학 (8)
    • 경제학 논문 (1)
    • 딥러닝 논문 (44)
      • 랭귀지 딥러닝 논문 (7)
      • 비전 딥러닝 논문 (7)
      • VLM(비전 랭귀지 모델) 딥러닝 논문 (7)
      • VLA(비전 랭귀지 액션) 딥러닝 논문 (2)
      • 시계열 딥러닝 논문 (13)
      • 강화학습 (2)
    • 랩세미나 랩미팅 (1)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/03   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바