메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

강성민 (한국기술교육대학교, 한국기술교육대학교 대학원)

지도교수
민준기
발행연도
2016
저작권
한국기술교육대학교 논문은 저작권에 의해 보호받습니다.

이용수3

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
데이터 수집 기술이 발달함에 따라서 데이터마이닝 분야에서 처리하는 데이터의 크기와 양이 빠르게 증가하고 있는 추세이다. 기존에 제안된 단일기기 환경의 알고리즘은 이러한 빅 데이터를 처리하는데 너무 많은 시간을 소요하기 때문에 새로운 방안들이 제시되고 있다. 그 중에서 분산 병렬 처리 프레임워크인 맵리듀스를 이용한 알고리즘들이 제안되고 있다.
본 논문에서는 맵리듀스를 이용한 k-Means 알고리즘 기반의 MCSK-Means (multi centroid set k-Means) 알고리즘을 제안한다. 기존의 k-Means 알고리즘은 클러스터의 개수 k만큼의 초기 중심점들을 무작 위로 생성한다. 이러한 특성 때문에 k-Means 알고리즘의 결과로 생성되는 클러스터들은 초기 중심점의 생성 위치에 따라서 크게 달라지며 클러 스터 정확도에 차이가 생기게 된다. 이는 곧 일정한 클러스터 정확도를 보장할 수 없는 단점이 된다.
이를 해결하기 위해서 본 논문에서 제안하는 알고리즘은 k개의 중심점 들로 이루어진 m개의 초기 중심점 집합들을 이용하여 기존의 k개만큼만 생성되는 초기 중심점의 의존도를 줄이고자 하였다. 각 중심점 집합들에 대해서 서로 영향을 주지 않고 독립적으로 k-Means 알고리즘을 입력된 데이터 집합에 대해서 수행하고 직접 계층 클러스터링 알고리즘을 적용하여 k개의 클러스터 중심점으로 수렴할 수 있도록 하였다. 생성된 k개의 중심점들은 기존의 무작위로 생성된 k-Means 알고리즘의 초기 중심점에 비해서 비교적 정확도가 높은 결과를 얻을 수 있도록 설정되고, 마지막으로 수렴된 k개의 중심점들을 이용하여 다시 k-Means 알고리즘을 수행하여 최종 결과를 얻도록 하였다.
제안 알고리즘의 효율성을 여러 환경의 실험을 통해서 입증할 수 있었고 맵리듀스 환경으로 개발하여 대용량 데이터에서도 비교적 빠른 시간에 수행이 가능함을 보였다.

목차

등록된 정보가 없습니다.

최근 본 자료

전체보기

댓글(0)

0