메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
장준원 (상명대학교) 최용훈 (상명대학교) 김민석 (상명대학교)
저널정보
한국컴퓨터정보학회 한국컴퓨터정보학회 학술발표논문집 2024년 한국컴퓨터정보학회 하계학술대회 논문집 제32권 2호
발행연도
2024.7
수록면
45 - 48 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
강화학습은 환경과의 상호작용을 통해 목표를 달성하는 정책을 학습하는 기계학습 방법론으로, 로봇 제어와 같은 복잡한 의사결정 문제를 해결하는 데 주목받고 있다. 최근 연구에서는 현실 세계를 모방한 연속적이고 복잡한 문제 상황을 해결하기 위해 결정론적, 확률론적 정책을 학습하는 알고리즘이 개발되었다. 이러한 알고리즘을 실제 환경에 적용하기 위해서는 높은 성능뿐만 아니라 안정적이고 일관된 성능을 보이는 것이 중요하다. 따라서 본 논문에서는 로봇 제어를 모방한 OpenAI Mujoco의 Walker2D, Ant, Humanoid의 세 가지 환경에서 두 정책 기반 강화학습 알고리즘의 안정성을 비교 분석한다. 이를 위해 결정론적 정책을 사용하는 TD3(Twin Delayed Deep Deterministic Policy Gradient)와 확률론적 정책을 사용하는 SAC(Soft Actor-Critic)를 각 환경에서 학습하고 성능을 평가한다. 실험 결과, 낮은 복잡도를 가진 환경에서는 TD3가 결정론적 정책을 통한 안정적인 학습과 성능을 보였으며, 환경이 복잡해질수록 SAC가 확률론적 정책을 통한 다양한 탐험을 통하여 높은 성능과 안정성을 보임을 확인하였다. 이를 통해, 본 연구는 결정론적 정책과 확률론적 정책의 구성 방식이 정책의 안정성에 미치는 영향을 분석하며, 로봇 제어와 같은 실제 응용 분야에서 안정적이고 일관된 정책 구성이 중요함을 강조한다.

목차

요약
I. Introduction
II. Preliminaries
III. Propsed method
IV. Experiments and Analysis
V. Conclusions
REFERENCES

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0