메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

강민교 (경기대학교, 경기대학교 대학원)

지도교수
김인철
발행연도
2023
저작권
경기대학교 논문은 저작권에 의해 보호받습니다.

이용수27

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
일반적으로 학습자 로봇이 연속적인 상태 및 행동 공간을 갖는 보행 작업들에서 강화학습을 통해 최적화된 행동 정책을 학습하기 위해서는 실제 학습 환경과의 많은 시행착오적 경험이 필요하다. 이러한 온라인 강화학습의 낮은 데이터 효율성, 하드웨어와 기물의 파손 위험성, 베터리 자원의 한계성 문제를 극복하기 위해 최근 오프라인 경험 데이터 집합을 사용하는 오프라인 강화학습 방법이 활발히 연구되고 있다. 하지만, 오프라인 강화학습 방법 역시 오프라인 데이터 집합의 품질과 범위에 매우 의존적인 한계성을 갖는다. 본 논문에서는 오프라인 데이터 집합 이외에 경험 데이터를 효과적으로 활용할 수 있는 복합 강화학습 프레임워크와 순차적 경험 데이터에 내재된 시간적 맥락 정보를 반영할 수 있는 Transformer 기반 정책 네트워크를 제안한다. 또한, 제안된 복합 강화학습 프레임워크에서는 학습 효율성을 향상시키기 위해 학습자 로봇의 진도를 기반으로 하는 새로운 우선 순위 샘플링 전략을 사용하여 경로 재현 버퍼에서 학습 데이터들을 선택한다. 온라인/오프라인 두 체계의 데이터를 모두 활용하는 제안 프레임워크를 통해 순수 온라인 강화학습의 데이터 비효울성 문제를 극복하고, 오프라인 강화학습이 갖게 되는 행동 정책의 데이터 집합에 대한 높은 의존성과 이것으로 인해 발생하는 편향성을 극복하였다. 본 논문에서는 OpenAI Gym에서 제공하는 hopper, walker2d, halfcheetah의 3가지 다른 보행 작업들에 대한 다양한 실험들을 통해 제안된 프레임워크의 효율성과 우수성을 입증한다.

목차

제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 목표 5
제 2 장 이론적 배경 6
제 1 절 행동 정책 학습 6
제 2 절 정책 네트워크 8
제 3 절 학습 데이터 샘플링 전략 10
제 3 장 온-오프라인 복합강화학습 프레임워크 12
제 1 절 문제 정의 12
제 2 절 복합 강화학습 프레임워크 개요 14
제 3 절 Transformer 신경망 구조 기반 강화학습 17
제 4 절 진도-기반 우선순위 샘플링 20
제 5 절 학습 알고리즘 23
제 4 장 구현 및 실험 25
제 1 절 작업 환경 25
제 2 절 구현 환경 27
제 3 절 정량적 실험 28
제 1 항 강화학습 방법 간의 성능 비교 28
제 2 항 강화학습 모델들과의 성능 비교 29
제 3 항 정책 네트워크 간의 성능 비교 30
제 4 항 학습 데이터 샘플링 전략 간의 성능 비교 31
제 4 절 정성적 실험 32
제 5 장 결론 및 향후 연구 34
참고문헌 35
Abstract 40

최근 본 자료

전체보기

댓글(0)

0