당뇨병 발병률은 전 세계적으로 급속히 증가했으며 한국에서도 폭발적으로 증가하고 있다. 한국에서 당뇨병은 2014년 주요 사망 원인 중 6번째이다 (Statistics Korea, 2014). 또한 당뇨병은 여러 가지 합병증을 일으켜 사망에 이르게 하며, 특히 당뇨병 환자의 약 30%가 심혈관 합병증으로 사망한다 (Boo, 2012; Park 등, 2009). 2016년 당뇨병 fact sheet에 따르면 30세 이상 한국인의 당뇨병 발병률은 2014년 약 13.7% (한국인 480만 명)였으며, 약 4분의 1이 공복 혈당 장애를 가지고 있었다 (Korean Diabetes Association, 2017). 그러나 당뇨병을 앓고 있는 10명 중 3명은 자신이 당뇨병에 걸렸다는 것을 인지하지 못했다. 의학연구에서 당뇨병 발병에 영향을 미치는 위험요인을 찾아내고 발병률을 예측하여 치료계 획을 수립하는 것은 중요하다. 따라서, 우리는 질병의 발병률을 예측하기 위한 기술 중 하나인 노모그램을 연구했다. 노모그램은 복잡한 수식을 계산하지 않고도 질병과 위험요인의 수치적 관계를 그래픽으로 나타낼 수 있는 시각 도구로 (Lee 등, 2009), 점수 시스템을 통해 개별 환자의 발병률 또는 생존률을 예측할 수 있기 때문에 의료 종사자가 활용하기에 유용하다 (Iasonos 등, 2008). 또한 한 눈에 특정 질병에 영향을 미치는 중요한 위험요인을 제공할 뿐만 아니라 위험요인 값의 변화에 따라 발생률의 변화를 쉽게 식별 할 수 있다. 실제로 한국에서 위암, 침윤성 도관 암, 전립선 암 및 골육종에 대한 노모그램이 개발되어 왔고 널리 사용하고 있다 (Jun, 2015; Lee, 2015; Ahn, 2013; Kim 등, 2014). 그러나 제 2형 당뇨병에 대한 노모그램은 연구되지 않았기 때문에, 제 2형 당뇨병에 대한 위험요인을 선별하고 적절한 노모그램을 제안할 것이다. 특정 질병과 관련된 위험요인을 조사하기 위한 대부분의 연구는 주로 로지스틱 회귀 분석과 Cox 비례위험모형을 사용한다. 몇몇 연구 또한 당뇨병의 위험요인을 확인하고 발병률을 예측하기 위해 로지스틱 회귀모형을 사용했다 (Lee 등, 2012; Bang 등, 2009). 우리 연구에서는 로지스틱 회귀모형과 더불어 몇 가지 장점이 더 있는 순수 베이지안 분류기 모델을 사용한다. 순수 베이지안 분류기 모델의 장점은 다음과 같다. 첫째, 순수 베이지안 분류기 모델은 예측 모델을 구성하는 기법 중 가장 단순하면서도 강력한 기법이다 (¹Mozina 등, 2004). 둘째, 순수 베이지안 분류기 모델은 예측 정확도가 뛰어나며 속성 (위험 요인) 값과 대상 범주 간의 관계를 보여줌으로써 중요한 통찰력을 제공 할 수 있다. 셋째, 순수 베이지안 분류기 모델의 속성 의존도 영향은 속성들 사이의 상호작용을 고려한 결과를 도출한다 (²Mozina 등, 2004; Jakulin과 Bratko, 2003). 마지막으로, 순수 베이지안 분류기 모델은 시각적 도구인 노모그램을 표현하기 위한 최상의 기법이다. 본 논문에서는 로지스틱 회귀모형, 순수 베이지안 분류기 모델과 노모그램의 구축 절차 및 방법에 대해 소개한다. 로지스틱, 베이지안 노모그램을 작성하는 방법을 소개하고 2013-2015년도 한국국민건강영양조사 (Korean national health and nutrition examination survey; KNHANES) 데이터를 사용하여 제 2형 당뇨병에 대한 적절한 노모그램을 제안한다. 연구는 건강 면담, 검진 및 영양 조사를 완료한 20-85세 사이의 성인을 대상으로 선정되었으며, 임산부와 결측치는 제외 되었다. 최종 샘플 크기는 13,474명의 데이터이고, 그 중 1,543명이 제 2형 당뇨병을 가진 것으로 확인되었다. 2장에서는 로지스틱 회귀모형, 순수 베이지안 분류기 모델과 노모그램의 구축 절차 및 검증 방법에 대해 소개한다. 3장에서는 카이제곱 검정에 의해 제 2형 당뇨병에 대한 위험요인을 제시하고, 2장에서 소개한 방법들을 데이터에 적용시켜 노모그램을 구축하고 비교 및 검증한다. 마지막으로 4장에서는 연구의 결과를 요약한다.
In this study, we introduce the method of building the logistic regression nomogram, Bayesian nomogram and propose the appropriate nomograms for type 2 diabetes (T2D) using the 13,474 data collected from the 2013-2015 Korean national health and nutrition examination survey (KNHANES) data. We identify risk factors related with T2D, propose a visual nomogram for T2D from logistic regression model, naive Bayesian classifier model and predict incidence rate of T2D. Also, we compute confidence intervals for the influence of risk factors (attribute) and verify the proposed logistic, Bayesian nomogram using receive operating curve (ROC). Finally, we compare logistic regression and Bayesian nomogram for T2D. As a result of analysis of T2D data, highest risk factor of T2D incidence was more 60 years of age group in logistic nomogram, followed by 40-59 years of age group, family history of diabetes, dyslipedimia in the order. However, highest risk factor of T2D incidence was with cardiovascular disease in Bayesian nomogram, followed by dyslipedimia, hypertension, more 60 years of age group in the order. AUC of ROC curve showed a statistically significant determination, respectively 0.818, 0.801. If we use the proposed nomogram, can easily predict the incidence rate of T2D in an individual and can be used as a tool to establish a treatment plan based on this information.