메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

황희선 (이화여자대학교, 이화여자대학교 대학원)

지도교수
민대기
발행연도
2023
저작권
이화여자대학교 논문은 저작권에 의해 보호받습니다.

이용수6

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (4)

초록· 키워드

오류제보하기
누락된 값을 무시한 채 진행한 시계열 데이터 분석은 데이터가 더 이상 유효하지 않게 만들 뿐만 아니라 기계학습 응용 분석에서도 잘못된 결과로 이끌 수 있다. 임의의 결측 데이터가 있는 시계열 맥락을 고려한 본 논문은 완전하고 유사한 시계열로 결측 값을 예측하는 결측 데이터 대체(imputation) 방법을 고려한다. 본 연구는 다음의 두 가지 가설을 실험하는 것을 목표로 한다. (a) 더 유사한 시계열을 학습에 사용하는 것은 덜 유사한 시계열 데이터를 사용했을 때 보다 더 나은 결측 데이터 대체 성능을 제공한다. (b) 더 나은 성능을 보이는 결측 값이 대체된 데이터는 시계열의 미래 예측 문제에서도 더 좋은 성능을 제공한다. 이러한 가설을 평가하기 위해 유클리드 거리를 사용하여 결측 데이터와 후보 데이터들 간의 거리를 측정한 후, 측정된 거리를 기반으로 훈련 데이터를 선택하여 학습하는 LSTM 모델을 고려했다. 본 연구에서 LSTM 모델은 결측 데이터 대체(imputation) 뿐만 아니라 결측 값이 대체된 데이터를 이용하여 예측할 때에도 사용된다. 비교를 위해 단순 이동 평균(Simple Moving Average), 헐 이동 평균(Hull Moving Average) 및 기계학습 모델 중 하나인 XGBoost의 결측 값 대체 성능을 추가로 평가했다. 수치 실험 결과는 최단거리 데이터로 훈련된 LSTM imputation 모델이 최고의 성능을 보였다. 그러나 다른 훈련데이터를 사용하거나 다른 모델을 사용한 결측 값 대체 데이터(imputed data)와 예측 성능에서는 유의미한 차이가 없었다. 이 실험의 결과는 흥미롭게도 유사한 시계열 패턴을 사용하여 시계열 데이터의 일관성을 높이는 것이 효과적이기는 하지만, 이것이 항상 예측 정확도를 보장하는 것은 아님을 시사한다.

목차

Ⅰ. 서론 1
Ⅱ. 선행연구 4
A. 시계열 데이터 연구 4
B. Data imputation method 5
C. 전이학습 7
D. 평가 방식 9
E. Imputation 성능과 예측 성능의 관계에 관한 연구 10
Ⅲ. 연구 질문 12
A. 훈련 데이터와 결측 데이터의 유사성에 따른 대체 성능 차이가 있는가 12
B. 결측치 대체 성능이 우수할수록 예측 성능이 개선되는가 13
Ⅳ. 연구 방법론 및 실험 계획 14
A. 시계열 데이터 예측모형 14
B. 전이학습과 시계열 데이터의 유사도 15
C. 데이터와 결측치 유형 16
D. 수치 실험 절차 17
Ⅴ. 수치 실험 결과 19
A. Data imputation 방법론 선정 19
B. 시계열 유사도와 imputation 성능 20
C. 결측 대체 성능과 예측 성능 사이의 관계성 22
Ⅵ. 결론 및 논의 26
참고문헌 28
ABSTRACT 35

최근 본 자료

전체보기

댓글(0)

0