지원사업
학술연구/단체지원/교육 등 연구자 활동을 지속하도록 DBpia가 지원하고 있어요.
커뮤니티
연구자들이 자신의 연구와 전문성을 널리 알리고, 새로운 협력의 기회를 만들 수 있는 네트워킹 공간이에요.
이용수27
제 1 장 서 론 1제 1 절 연구 배경 1제 2 절 연구 목표 5제 2 장 이론적 배경 6제 1 절 행동 정책 학습 6제 2 절 정책 네트워크 8제 3 절 학습 데이터 샘플링 전략 10제 3 장 온-오프라인 복합강화학습 프레임워크 12제 1 절 문제 정의 12제 2 절 복합 강화학습 프레임워크 개요 14제 3 절 Transformer 신경망 구조 기반 강화학습 17제 4 절 진도-기반 우선순위 샘플링 20제 5 절 학습 알고리즘 23제 4 장 구현 및 실험 25제 1 절 작업 환경 25제 2 절 구현 환경 27제 3 절 정량적 실험 28제 1 항 강화학습 방법 간의 성능 비교 28제 2 항 강화학습 모델들과의 성능 비교 29제 3 항 정책 네트워크 간의 성능 비교 30제 4 항 학습 데이터 샘플링 전략 간의 성능 비교 31제 4 절 정성적 실험 32제 5 장 결론 및 향후 연구 34참고문헌 35Abstract 40
0