호소 내 부영양화로 인하여 발생하는 조류 대발생은 독성물질 유발, 탁도, 냄새 등의 문제를 일으켜 수생태계 및 인간에게 피해를 일으킨다. 이에 본 연구는 데이터 기반 예측을 수행하는 기계학습 모델을 이용하여 한강 수계 내 조류 발생량에 대하여 클로로필 a 예측을 통하여 예측을 시도하며, 최적 모델의 대입 인자를 분석하여 수계 내 클로로필 a와 인자의 거동을 분석하고자 하였다. 자료는 한강 수계 내 실시간 수질 정보 시스템, 기상청에서 2012년 7월∼2020년 5월까지의 일 단위 자료를 수집하였다. 모델은 랜덤 포레스트, 서포트 벡터 머신, 심층신경망, 합성곱 신경망, 장-단기 기억, 게이트 순환 유닛 등을 사용하였으며, 시행착오 과정을 통하여 학습, 테스트 자료 비율 조정 및 모델별 하이퍼 파라미터에 대한 최적화, 대입 인자 등에 대한 조정을 시도하였다. 랜덤 포레스트, 서포트 벡터 머신, 심층신경망의 경우 무작위추출 자료구성, 시계열 자료구성에 대한 최적화된 모델에 대해서 비교하였다. 결정계수, 평균 제곱근 오차, 평균 절대 오차 등을 이용하여 성능을 비교하였다. 예측 결과 무작위추출 자료구성을 이용한 랜덤 포레스트가 가장 높은 성능을 보였다. 학습, 테스트 비율은 70%, 30%에서 최적의 성능을 보였으며, 모델 내 하이퍼 파라미터인 트리 개수는 78에서 최적화가 되었다. 시계열 자료를 이용한 경우보다 무작위추출 자료를 이용한 경우 예측 성능이 더 높았다. 사용한 인자는 수온, 전기전도도, 최고온도, 최저온도, 평균온도, 용존산소(dissolved oxygen, DO), pH, 총질소(total nitrogen, TN), 총 유기 탄소(total organic carbon, TOC), 총인(total phosphorous, TP) 이었다. 변수 중요도 분석 결과 TOC(27%), TN(19%), pH(13%), 수온(8%), TP(8%), 전기전도도(7%), DO(6%), 최저온도(4%), 평균온도(3%), 최고온도(3%) 순으로 본 연구에선 TOC가 가장 중요한 인자임을 알 수 있었다.
Eutrophication of the lake because of the intake of nutrients such as nitrogen, and phosphorus can make algal bloom, which causes turbidity, odor, and toxic substance like microcystin. In this study, chlorophyll-a that estimate algal biomass was predicted using various machine learning, and deep learning model. Daily water quality and meteorological data were collected from Han River about 2012.07∼2020.05. Random forest, support vector machine, deep neural network, convolutional neural network, long short-term memory, and gated recurrent unit were compare the predict efficiency using coefficient of determination (R2), root mean square error (RMSE), and mean absolute error (MAE). Support vector machine was optimized by grid search, and the rest of the model was optimized by trial & error. Result was showed that the random forest with random split data was the best model to predict chlorophyll-a at Han River. When the train data was 70% of the whole data had the highest accuracy, and the number of trees in the model were 78. Input variables in this model were average, minimum, and maximum temperature, dissolved oxygen, electrical conductivity, pH, total nitrogen (TN), total organic carbon (TOC), total phosphorus (TP), and water temperature. Feature importance analysis showed the most important variable in this study was TOC(27%), and the other importance of the input variables were TN (19%), pH (13%), water temperature (8%), TP (8%), electrical conductivity (7%), DO (6%), minimum temperature (4%), average temperature (3%), and maximum temperature (3%).
목 차List of Tables ⅴList of Figures ⅶI. 서론 1II. 문헌 연구 32.1. 수학적 조류예측 모델링 32.2. 기계학습을 이용한 조류예측 모델링 4III. 연구 지역 및 모델링 83.1. 연구 지역 및 자료 전처리 83.2. 연구 방법 113.2.1. 랜덤 포레스트 113.2.2. 서포트 벡터 머신 123.2.3. 심층신경망 143.2.4. 합성곱 신경망 153.2.5. 순환 신경망 163.2.6. 모델 최적화 및 성능 지표 18IV. 결과 및 고찰 214.1. 랜덤 포레스트 214.1.1. 랜덤 포레스트 최적화 214.1.2. 중요도 분석 234.2. 서포트 벡터 머신 274.3. 심층신경망 314.4. 합성곱 신경망 364.5. 순환 신경망 434.5.1. 장-단기 기억 434.5.2. 게이트 순환 유닛 484.6. 모델별 비교 54V. 결론 58VI. 참고문헌 59Abstract 66