메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이영지 (한밭대학교, 한밭대학교 대학원)

지도교수
이승호
발행연도
2021
저작권
한밭대학교 논문은 저작권에 의해 보호받습니다.

이용수268

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
본 논문에서는 인공지능 기반의 유전자 데이터와 질병과의 연관성 예측에 관한 연구를 제안한다.
제안된 논문은 데이터 전처리, 데이터 라벨링, 학습데이터 구축, PCA 변환, 딥러닝 네트워크 구조 설계 등의 5가지 과정으로 구성된다.
데이터 전처리 과정에서는 데이터 선별 과정과 데이터 변환 과정을 수행한다. 데이터 선별 과정은 불분명하고 결과에 관계없는 특징들을 선별하여 학습 결과에 대한 정확도를 높일 수 있으며 학습 시간도 줄일 수 있다. 본 논문에서 사용한 유전자 데이터는 미국 국립보건원(National Institutes of Health, NIH)에서 진행한 TCGA(The Cancer Genome Atlas) 프로젝트의 공개된 유전자 데이터이다. TCGA 프로젝트는 다양한 암에 관한 유전변이 데이터를 통합 축적하여 분석하고자 하는 목적으로 데이터를 제공하는 프로젝트이다. 데이터 변환 과정에서는 데이터 선별 과정이 끝난 후에 데이터들을 학습이 가능한 형태로 변환하고 가공한다.
데이터 라벨링 과정에서는 방광암, 유방암, 자궁경부암, 두경부암, 폐암 등의 5가지 암에 대한 5가지 암에 대한 데이터들을 0과 1로 라벨링한다.
학습 데이터 구축 과정에서는 선별된 TCGA 유전자 데이터 변수 정보를 토대로 데이터 변환과 라벨링을 통해 총 522,557개의 학습 데이터(Learning Sets)를 구축한다.
PCA 변환 과정에서는 유전자 데이터는 돌연변이의 개수가 다양하므로 입력 데이터의 크기를 맞추며, 모든 특징들이 학습 데이터에 주요한 영향을 미치지 않으므로 데이터를 기존의 차원에서 주성분 축으로 차원 축소한다.
딥러닝 네트워크 구조 설계 과정은 PCA 적용 후, 구축된 학습 데이터(Learning Sets)가 입력되어 6개의 Fully Connected Layer를 거쳐 Sigmoid를 통하여 유전자 데이터에 의한 질병이 예측되어 출력된다.
본 논문에서 사용한 학습 데이터는 TCGA(The Cancer Genome Atlas) 프로젝트의 공개된 유전자 데이터베이스를 사용하였다. 한편, 학습 결과를 확인하기 위해 cBioPortal 사이트에 공개되어 있는 총 2,670명(총 125,490개의 유전자 변이)의 실험 데이터(Test Sets)를 사용하였다.
제안하는 인공지능 기반의 유전자 데이터와 질병과의 연관성 예측의 객관적인 신뢰성 평가를 위하여 질병 예측 정확도(Accuracy), 재현률(Recall), 정밀도(Precision)를 평가하였다. 실험결과, 병 예측 정확도(Accuracy), 재현률(Recall), 정밀도(Precision) 등이 기존 Nature Communications 논문의 결과보다 낮게 나타내었다. 낮은 결과가 나온 원인은 본 논문에서는 환경적인 요인과 생활 습관 등의 여러 요인을 고려하지 않고 유전자 변이와 기본 정보만을 사용하였기 때문이다. 따라서, 각 암에 대한 다양한 가중치 정보를 추가하여 데이터 학습에 활용하면, 보다 효율 높은 결과를 도출할 것으로 예상된다. 결론적으로 본 논문에서 제안한 기법은 특정 암에 관련된 특정 유전자만을 대상으로 데이터를 학습시키지 않고 각 암 환자마다 가지고 있는 모든 유전자 패턴을 학습하였으므로, 특정 암에 대한 정확성이 다소 불명확하더라도 다른 암에 대한 예측과 암 전이에 대한 예측을 할 수 있는 가능성을 나타내었다고 볼 수가 있다.

목차

등록된 정보가 없습니다.

최근 본 자료

전체보기

댓글(0)

0