메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
정택현 (건국대학교) 김상원 (건국대학교) 김기천 (건국대학교)
저널정보
한국통신학회 한국통신학회논문지 한국통신학회논문지 제44권 제10호
발행연도
2019.10
수록면
1,961 - 1,974 (14page)
DOI
10.7840/kics.2019.44.10.1961

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
본 논문은 강화학습(Reinforcement Learning)의 성능에 상관성을 갖는 여러 요인 및 조건들을 고찰하고, 이를 개선하기 위한 N-DQN 모델을 정의한다. N-DQN은 HDQN의 구조를 응용 및 확장하는 개념으로 여러 actor를 계층화하며 Policy-Base의 행동관리를 통해 작업이 동시/병렬적으로 수행되는 구조를 갖는다. 각각의 actor가 행동을 수행하면서 획득한 Episode는 Replay Buffer에 공유성 있게 저장되며, 이러한 과정에서 우선적 경험재생(Prioritized Experience Replay), 보상 획득구간의 세분화 등과 같은 다양한 강화학습의 개선요인을 적용하였다. 구현된 N-DQN은 성능평가에서 Reward-Sparse 환경에서 Q-Learning 알고리즘과 대비하여 약 3.5배의 높은 학습성능을 보였으며, DQN과 대비해서 약 1.1배의 빠른 목표 달성 속도를 보였다. 또한, 우선적 경험재생의 구현과 보상획득 구간 세분화 정책의 구현을 통해 기존의 강화학습 모델들이 갖던 Positive-Bias 등의 문제점이 거의 발생하지 않았다. 하지만, 많은 수의 Actor를 병렬로 활용하는 아키텍처의 특성에 따라, 추후 경량화에 관한 추가적인 연구의 필요성이 제기된다. 본 논문은 추후 수행될 경량화 및 성능 개선 연구의 초석으로, 제안하는 아키텍처의 구조와 활용된 다양한 알고리즘의 내용 그리고 이를 구현하기 위한 명세를 상세히 기술한다.

목차

요약
ABSTRACT
Ⅰ. Introduction
Ⅱ. Related Works
Ⅲ. Proposed N-DQN
Ⅳ. Evaluation Results and Analysis
Ⅴ. Ping-Pong with RL
Ⅵ. Conclusion
References

참고문헌 (30)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-ECN-0101-2019-567-001254174