메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이진우 (한림대학교, 한림대학교 대학원)

발행연도
2020
저작권
한림대학교 논문은 저작권에 의해 보호받습니다.

이용수4

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
최근 차세대 시퀀싱 (next generation sequencing, NGS) 기법의 발달과 분석 비용의 하락으로 인하여 방대한 유전체 데이터가 생산/축적되고 있으며, 이들 유전체 시퀀싱 데이터를 활용한 질병 원인 유전자/변이(variation) 분석 연구가 매우 활발히 진행되고 있다. 유전체 변이 분석 연구에 일반적으로 사용되는 Broad Institute의 GATK(genome analysis toolkit)는 유전체 변이 분석을 연구를 위한 데이터 처리 모듈을 단계별로 제공한다. 그러나, 기본적으로 클러스터를 이용한 분산 및 병렬처리를 지원하지 않기 때문에 각 모듈은 긴 실행시간이 필요하다.
GATK의 CombineGVCFs 모듈은 개인의 유전적 변이의 정보가 기록된 다수의 GVCF(genome variant call format) 파일을 정렬 및 병합하여 단일 GVCF 파일을 생성하는 기능을 수행한다. 이 모듈은 다수의 GVCF 파일을 순차적으로 비교 분석하여 정렬 및 병합을 진행하기 때문에 다른 모듈에 비하여 매우 긴 시간이 소요된다. 따라서 본 논문에서는 기존의 GVCF 파일 정렬/병합 실행시간을 단축하기 위하여 분산병렬 클러스터를 이용한 GVCF 파일 정렬/병합 모듈을 제안한다.
제안하는 모듈에서는 분산병렬 클러스터인 Spark를 사용하며, 클러스터 내의 자원을 효율적으로 사용하기 위해 GVCF 파일의 특성을 고려한 두 단계의 과정으로 정렬 및 병합을 진행한다. 성능 평가를 위하여 GATK의 CombineGVCFs 모듈과 제안하는 모듈의 GVCF 파일의 개수에 따른 정렬 및 병합 실행시간을 측정하여 비교 및 평가를 진행하였다. 또한, 제안하는 모듈에서 Worker 수에 따른 실행시간의 변화, 두 단계의 정렬 및 병합 과정에 대한 비교 분석을 진행하였다. 각 실험을 통해 제안된 모듈의 유효성을 입증하였다.

목차

제1장 서 론 1
제2장 관 련 연 구 3
1. NGS 기반 유전체 변이 분석 과정 3
2. VCF, GVCF 파일 포맷 5
3. Apache Hadoop, Spark 7
제3장 본 론 9
1. GVCF 파일의 특성 9
2. 분산/병렬화 클러스터를 이용한 GVCF 파일 정렬/병합 모듈 13
1) GVCF 파일 정렬/병합 모듈 개요 13
2) GVCF 파일 정렬/병합 모듈 : Phase 1 알고리즘 16
3) GVCF 파일 정렬/병합 모듈 : Phase 2 알고리즘 25
제4장 성 능 평 가 31
1. 실험 환경 31
2. 실험 결과 및 분석 34
제5장 결론 및 향후연구 39
참 고 문 헌 41

최근 본 자료

전체보기

댓글(0)

0