강화학습의 전략적 기울기 접근법
목차
서론
1. 가치 기반 접근법 재검토
1.1 핵심 개념
1.2 한계점
2. 전략 직접 최적화 이유
2.1 전략 기울기의 핵심 원리
2.2 직관적 이점
3. 전략 기울기 정리
3.1 유도 과정
3.2 최종 표현식
4. REINFORCE 알고리즘
4.1 알고리즘 단계
4.2 코드 예시
5. 분산 감소: 기준선 도입
5.1 기준선 기법
5.2 최적 기준선
6. REINFORCE에서 현대 알고리즘으로
7. 결론
서론
강화 ...
5월 26일 22:42에 게시됨