메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

박건우 (경희대학교, 경희대학교 대학원)

지도교수
김상혁
발행연도
2021
저작권
경희대학교 논문은 저작권에 의해 보호받습니다.

이용수29

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
Reinforcement learning is an artificial intelligence technology in which an agent interacts with a given environment to learn the proper action for each state. There are two types in reinforcement learning, a value based method for learning Q function and a policy based method for learning behavioral policies. The TD method, which is a classical value based learning algorithm, has a high biased problem, and the Monte-Carlo estimate algorithm used in Policy based learning has a high variance problem. In order to minimize these problems, an Actor Critic algorithm was devised that combined the value-based and policy-based methods. Moreover, PPO algorithm that limited policy updates to surrogate objectives was proposed to more stably converge the policy. However, it is still difficult to converge to an optimized reward due to the characteristics of the control field that has a continuous and vast state. In this paper, we propose a learning method in the form of imitation learning in which the model trained by supervised learning based on domain knowledge, and verify the excellence of optimization through reinforcement learning

목차

1. 서론 1
2. 이론적 배경 3
2.1 Imitation Learning 3
2.2 Behavioral Cloning 4
2.3 Actor Critic 5
2.4 Proximal Policy Optimization 6
3. 알고리즘 설계 및 구현 7
3.1 Domain Knowledge 회피기동 알고리즘 설계 7
3.2 지도학습 네트워크 설계 11
3.3 강화학습 알고리즘 설계 19
4. 모의실험 및 결과 22
4.1 강화학습 알고리즘 별 Reward 수렴 결과 비교 25
4.2 회피 기동 알고리즘 별 회피결과 비교 28
5. 결론 및 향후 과제 31
참 고 문 헌 35

최근 본 자료

전체보기

댓글(0)

0