예비 대학원생의 논문 리뷰 뽀개기

  • 홈
  • 태그
  • 방명록

2026/03/13 2

강화학습 내용 정리 (Lecture 1~3)

26년 1학기 오민환 교수님 강화학습 기초 수업을 듣고 필기한 내용이다.Lecture 1은 걍 수업 인트로니까 패스LECTURE 2Multi-armed BanditMulti-armed bandit 문제는 reinforcement learning에서 가장 단순한 형태의 의사결정 문제다. 여러 개의 선택지(arm)가 있고, 각 선택지는 보상을 발생시키는 확률 분포를 가진다. 목표는 시간이 지나면서 총 보상을 최대화하는 arm 선택 전략을 찾는 것이다.1. Multi-armed Bandit 문제의 설정슬롯머신이 여러 개 있다고 가정한다. 각 슬롯머신은 서로 다른 보상 분포를 가진다. 행동을 선택하면 보상이 즉시 관측된다.중요한 특징:행동은 미래 상태(state transition)에 영향을 주지 않는다.보상은..

딥러닝 논문/강화학습 2026.03.13

2026년 3월 13일 미팅 with 최종현 prof

보호되어 있는 글입니다.

랩세미나 랩미팅 2026.03.13
이전
1
다음
더보기
프로필사진

예비 대학원생의 논문 리뷰 뽀개기

서울대 경제학과 22학번 이지원의 블로그 입니다.

  • 분류 전체보기 (61)
    • 수학 (8)
    • 경제학 논문 (1)
    • 딥러닝 논문 (44)
      • 랭귀지 딥러닝 논문 (7)
      • 비전 딥러닝 논문 (7)
      • VLM(비전 랭귀지 모델) 딥러닝 논문 (7)
      • VLA(비전 랭귀지 액션) 딥러닝 논문 (2)
      • 시계열 딥러닝 논문 (13)
      • 강화학습 (2)
    • 랩세미나 랩미팅 (1)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/03   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바