만성 폐쇄성 폐 질환(COPD, Chronic Obstructive Pulmonary Disease)은 사망률 세계 4위이며, 한국 7위의 질병으로 노년층에서 많이 발병하는 호흡기 질환이다. 만성 폐쇄성 폐 질환은 천식과 비슷하게 호흡 곤란, 기침, 가래 등의 기도 질환 증상을 나타낸다. 만성 폐쇄성 폐 질환은 주로 폐기능을 악화시켜 사망에 이르게 하는 것으로 알려져있다. 이러한 만성 폐쇄성 폐 질환 이외에도 여러 질병들에 대한 관심이 높아지면서 건강 상태를 확인하는데 지표가 되는 바이오 마커에 대한 연구도 다양하게 진행되고 있다. 바이오 마커란 질병을 예측하거나 예방 치료를 할 수 있는 신체 표지자를 뜻한다. 특정 질병과 관련 있는 바이오 마커 찾는 가장 정확한 방법은 임상 실험을 이용하는 것이다. 그러나 특정 질병과 관련이 있을 것으로 추정되는 바이오 마커에 대하여 섣불리 임상연구를 진행 할 수 없다는 점을 고려할 때, 문서의 사전 정보에서 관련성을 입증하는 것은 아주 큰 의미를 가진다. 이처럼, 문서의 사전 정보로부터 단어 간의 관계를 파악하는 연구가 자연어처리 분야에서도 다양하게 이뤄지고 있다 임상실험에서 특정 질병에 대한 새로운 바이오 마커를 찾는 것은 많은 비용과 시간이 소요된다는 문제점이 있다. 본 연구에서는 이러한 문제점을 보완하기 위해서 텍스트를 이용하여 특정 질병과 관련이 있는 바이오마커를 찾고자 한다. 본 논문에서는 호흡기 질병으로 널리 알려져있는 만성 폐쇄성 폐 질환 (COPD, Chronic Obstructive Pulmonary Disease)과 연관 있는 바이오마커를 찾기 위하여 강원대학교 병원에서 추천 받은 바이오마커를 이용하여 COPD와 바이오마커의 유사도를 측정한다. 워드임베딩 모델 CCA(Canonical Correlation Analysis), Word2Vec, GloVe(Global Vector)를 사용하여 COPD와 바이오마커를 워드임베딩한다. 워드 임베딩한 K차원의 COPD와 바이오마커의 고차원 데이터를 t-SNE를 사용하여 2차원으로 축소하여 매핑하고 시각화한다. 그리고 코사인 유사도를 계산하여 유사도를 측정한다. 계산된 유사도 값을 이용하여 구글 스칼라 (Google Scholar) 검색을 통해 임상 평가를 대체하기 위해 에서 검색한 논문의 제목과 요약을 사용하여 점수화 하여 실제 연구가 이루어지고 있는지를 확인한다. 그리고 임상 전문가들의 바이오마커 순위와 워드임베딩 모델의 순위를 비교하였다. 만성 폐쇄성 폐 질환과 바이오 마커의 상관관계를 파악하기 위해 워드 임베딩 모델 Word2vec의 결과와 임상 전문가의 순위를 비교하여 서로 상관 관계가 높지만 아직 연구가 이루어지고 있지 않는 새로운 바이오 마커를 찾는다. 실험 결과 , Word2Vec과 GloVe가 100차원 일 때 최고의 성능을 나타 낸 것을 알 수 있다. Word2Vec에서 권장하는 CC-16과 GloVe에서 권장하는 Adiponectin 및 Leptin 은 이미 COPD에 대한 많은 연구를 이뤄지고 있음을 보여준다. 반면 Word2Vec의 Eotaxin-1, Cyfra21-1 및 GloVe의 CEA 및 SAA는 연구가 많이 진행되고 있지 않다. 이것은 새로운 임상 연구의 방향을 제시한다. 즉, 유사도가 높은 바이오 마커 중에서 구글 학술검색에서 검색 빈도가 낮은 바이오 마커는 향후 다양한 임상 연구의 대상이 될 수 있다. 추가적으로 특정 질병에 대한 새로운 마커를 찾는 데 도움이 될 수 있다. 실제로, 지금까지 많은 연구가 이뤄지고 있지 않은 Cyfra21-1이 만성 폐쇄성 폐 질환과 높은 연관성이 있음이 밝혀졌다. 실험 결과를 바탕으로, 현재 강원 대학교 병원은 보다 신뢰성 있는 임상 결과를 얻기 위해 실험을 수행하고 있다. 유사도 결과 값을 기준으로 만성 폐쇄성 폐 질환과 바이오 마커의 상관 관계를 분석 해보았을 때, 관계에 대한 분석이 잘 되었고, 이들이 서로 관련이 깊다는 것을 알 수 있었다.
Chronic Obstructive Pulmonary Disease (COPD) is the fourth most common cause of mortality in the world. It is the 7th most common disease in Korea. Chronic obstructive pulmonary disease, like asthma, is a symptom of airway disorders such as dyspnea, cough, and sputum. Chronic obstructive pulmonary disease (COPD) is known to worsen pulmonary function leading to death. In addition to chronic obstructive pulmonary disease, there is a growing interest in various diseases and researches on biomarkers that are indicators of health status. Biomarkers are physical markers that can predict disease or prevent disease. The most accurate method of finding biomarkers related to a particular disease is to use clinical trials. However, it is of great significance to prove relevance in the preliminary in-formation of the document, considering that it is not possible to carry out a prospective clin-ical study on a biomarker presumably related to a specific disease. In this way, research on understanding the relationship between words from dictionary information of documents is being carried out variously in the field of natural language processing. In clinical trials, find-ing a new biomarker for a specific disease is costly and time consuming. In this study, we try to find biomarkers related to specific diseases using texts to overcome these problems. In this paper, we use the biomarker recommended by Kangwon National University Hospital to find the biomarkers related to COPD (Chronic Obstructive Pulmonary Disease), widely known as respiratory disease, and measure the similarity of COPD and biomarker. Word embedding model Canonical Correlation Analysis (CCA), Word2Vec, Glove (Global Vector) are used to word-embed COPD and biomarkers. High-dimensional data of CODD and biomarker of word-embedded K-dimension are reduced to two-dimensional map and visualized using t-SNE. Then, the degree of similarity is measured by calculating the cosine similarity. In order to substitute the clinical evaluation by Google Scholar search using the calculated similarity value, we use scoring and title of the thesis searched in to check whether the actual research is done. We compared the ranking of biomarkers and word embedding models of clinical experts. To ascertain the correlation between chronic obstructive pulmo-nary disease and biomarkers, we compare the results of the word embedding model Word2vec with that of clinical experts, and find new biomarkers that are highly correlated but have not been studied yet. Experimental results show that Word2Vec and GloVe perform best when they are 100 dimensions. The recommendations recommended by Word2Vec for CC-16 and GloVe suggest that adiponectin and leptin are already undergoing extensive re-search on COPD. In contrast, Eotaxin-1, Cyfra21-1 and GloVe''s cea and saa of Word2Vec have not been studied much. This provides a direction for new clinical studies. In other words, among biomarkers with a high degree of similarity, biomarkers with low search fre-quency in Google''s academic search can be subject to various clinical studies in the future. In addition, it can help find new markers for specific diseases. Indeed, cyfra 21-1, which has not been studied so far, has been found to be highly associated with chronic obstructive pulmonary disease. Based on the experimental results, Kangwon National University Hospital is conducting experiments to obtain more reliable clinical results. When we analyzed the correlation between chronic obstructive pulmonary disease and biomarker on the basis of the similarity result, the relationship was well analyzed and they were related to each other. Keywords: Word Embedding, Biomarker, COPD, CCA, Word2vec, GloVe, Cosine Similarity
목차
1. 서 론 11.1 개 요11.2 관련 연구 22. 벡터 표현 학습 32.1 ONE-HOT ENCODING 32.2 분포 표현 32.2.1 CCA 32.2.2 WORD2VEC 42.2.3 GLOVE 53. 방법론 63.1 상관관계 분석 방법 63.2 데이터 73.2.1 데이터 추출 93.2.2 데이터 전처리 과정 103.3 워드 임베딩 133.4 코사인 유사도 163.5 t-SNE 164. 실험 결과 174.1 T-SNE 결과 174.2 코사인 유사도 계산 결과 184.3 구글 학술검색 SCORING 264.4 워드 임베딩 모델과 임상 전문가의 순위 비교 355. 결 론 36참고 문헌 38국문 초록 42논문 실적 44