메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
홍창기 (경기대학교) 권기현 (경기대학교)
저널정보
한국정보기술학회 Proceedings of KIIT Conference 한국정보기술학회 2022년도 추계종합학술대회 및 대학생논문경진대회
발행연도
2022.12
수록면
408 - 412 (5page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
강화학습 알고리즘은 특정 환경에 대해 에이전트를 훈련시켜 하나의 에피소드에서 누적되는 보상의 합을 최대화하는 최적의 정책을 찾는다. 본 논문에서는 일반적인 강화학습의 목적에 반하는, 누적되는 보상의 합을 최소화하는 이른바 "반항적 정책"을 Q-Learning, SARSA 두 알고리즘을 통해 실패 도달 성능 차이를 보인다. 실험은 Open AI Gym의 FrozenLake 환경에서 기존의 학습방식은 유지한 채, 목표 상태가 아닌 실패 상태를 추적하도록 평가 과정을 변형하였다. 학습 과정과 평가 과정에서 보상, 총 보상 변화 추이와 실패 상태 도달경로 길이를 비교하였고, 그 결과 SARSA 알고리즘이 성능상 우세함을 실험을 통해 확인한다. 또한 두 알고리즘이 산출한 Q-테이블 내 데이터를 분석하여 해당 결과를 해석한다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 배경 지식
Ⅲ. 실험 및 결과
Ⅳ. 결론
참고문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0