메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이창형 (서울대학교, 서울대학교 대학원)

발행연도
2015
저작권
서울대학교 논문은 저작권에 의해 보호받습니다.

이용수0

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
문자열 유사도 조인은 데이터 베이스 분야에서 매우 중요하고 자주 사용되는 질의이다. 최근 토큰 기반 유사도와 문자 기반 유사도의 장점을 혼합한 Fuzzy 토큰 자카드 유사도가 제안되었다. 그러나 Fuzzy 토큰 자카드 유사도를 이용한 조인은 수행 시간이 너무 오래 걸려 이를 대용량 데이터에서도 사용하기는 어려웠다. 따라서 이를 극복하기 위해 맵리듀스 프레임워크를 이용하는 새로운 분산병렬처리 알고리즘과 이를 위한 새로운 시그니쳐를 제안하였다. 그리고 기존의 단일 머신 알고리즘과 실험을 통해 그 성능을 비교하였으며 20대의 컴퓨터를 이용하였을 때 최대 7배까지 성능이 향상되는 것을 확인할 수 있었다. 또한 컴퓨터의 수를 늘렸을 때 분산처리 방식의 유사도 조인 알고리즘 수행시간이 효과적으로 줄어드는 것을 확인하였다.

목차

목 차
초록 i
목차 ii
제 1 장 서 론 1
제 1 절 연구의 배경 및 내용 1
제 2 장 관련 연구 4
제 1 절 분산 병렬 처리 4
제 2 절 문자열 유사도 6
제 3 절 문자열 유사도 조인 8
제 3 장 분산 처리 유사도 조인 10
제 1 절 토큰 빈도 카운팅 11
제 2 절 시그니쳐 생성 12
제 3 절 문자 기반 유사도 조인 16
제 4 절 작업 분배 20
제 5 절 검증 23
제 4 장 실험 및 결과 25
제 1 절 단일 머신 알고리즘과의 비교 25
제 2 절 컴퓨터 수에 따른 수행시간 및 효율 28
제 5 장 결론 32
참고문헌 33
Abstract 36

최근 본 자료

전체보기

댓글(0)

0