메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이현병 (충북대학교 )

지도교수
유재수
발행연도
2023
저작권
충북대학교 논문은 저작권에 의해 보호받습니다.

이용수5

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (5)

초록· 키워드

오류제보하기
최근 현대 사회는 다양한 원천으로부터 복잡하고 다양한 형태의 데이터를 생성하고 있다. 특히 고차원 데이터의 생성으로 데이터 분석은 더욱 복잡해지고 차원의 저주(Curse of dimensionality) 문제에 직면한다. 고차원 데이터의 차원의 저주 문제는 컴퓨터 과학 분야에서 오랫동안 해결 중인 문제 중 하나이다. 이 문제의 특징 중 하나는 차원의 수가 너무 많기 때문에 각 차원 간의 관계를 이해하고 분석하는 것이 어렵다는 것이다. 데이터 구조와 알고리즘은 데이터 저장 및 처리의 효율성을 결정하는 주요 요소다. 특히, 색인 구조는 데이터베이스에서 빠른 탐색을 위한 핵심 개념이다.
과거의 고차원 데이터는 이미지로부터 추출한 특징 데이터로 적게는 수십 차원에서 많게는 수백 차원을 가진 데이터로 이를 표현할 수 있었다. 그러나 최근 기계학습 기반의 특징 데이터를 생성하는 연구가 진행되면서 이는 1,000차원 이상의 특징 데이터로도 이를 상세히 표현하기 어렵다. 이러한 데이터를 활용하기 위해서는 일반적으로 K-최근접 이웃 질의(K-Nearest Neighbor, KNN)나 일정 범위에 대한 질의를 수행하는 범위 질의(Range Query) 혹은 정답으로 가장 많이 등장하는 K개의 항목 탐색하는 Top-K 질의 등을 효과적으로 수행할 수 있어야 한다. 또한, 고차원 데이터 집합에서 정확한 질의 처리가 어렵기 때문에 일부의 정확도 손실을 감안하고 더 빠른 속도로 근사한 정답을 찾는 ANN(Approximate Nearest Neighbor) 또한 고려가 필요하다.
학습된 색인(Learned Index)은 기계학습 모델을 활용하여 색인을 구성하는 새로운 접근 방법이다. 학습된 색인은 전통적인 B-tree, 해싱 등과 같은 색인 구조들을 기계학습 모델로 대체하는 아이디어를 기반으로 한다. 여기서 핵심은 기계학습 모델이 특정 입력에 대한 출력을 예측할 수 있음을 이용하는 것이다. 그러나 학습된 색인 또한 복잡한 데이터에 대하여 탐색을 수행하기는 차원의 저주 등의 문제로 인하여 효과적인 탐색이 어렵다.
본 논문은 분산 환경에서 학습된 색인을 활용한 효율적인 고차원 색인 기법인 HILNDR(efficient High dimensional Indexing schemes using LearNed index in Distributed enviRonments)를 제안한다. 제안하는 기법은 벡터 근사화 기반 방법인 VA-File과 학습된 색인을 활용한다. VA-File은 고차원 벡터 데이터에 대한 근사 정보를 저장하는 간단하면서도 효과적인 색인 구조 중 하나이다. 기존 학습된 색인의 한계점인 고차원 데이터나 대용량 데이터에 이를 활용하기 어려운 점을 극복하기 위하여 VA-File을 활용하여 분산 처리 환경인 아파치 스파크(Apache Spark)를 활용하여 제안하는 기법을 구현했다. 이를 위해 전체 데이터 집합을 파티셔닝하고 각 파티션별로 학습된 색인을 구축하고 이를 활용하여 질의 처리를 수행한다.
제안하는 기법의 우수성을 보이기 위해, KD-Tree, iDistance와 같은 트리 기반의 기법과 LSH, FAISS 등 고차원 데이터에 자주 사용되는 색인 기법과 다양한 성능평가를 수행한다. 실험 결과, 제안하는 기법이 K-NN 질의 처리를 수행했을 때 질의 수행 속도 측면에서 기존 기법보다 최대 6배 이상 빠른 성능을 보였다. 또한 정확도 역시 기존 근사 탐색 기법보다 약 33% 뛰어난 성능을 보였다.

목차

Ⅰ. 서 론 1
1.1 연구 필요성 1
1.2 연구 목적 및 특징 7
1.3 연구의 구성 9
II. 관련연구 10
2.1 질의 정의 10
2.2 차원의 저주 및 차원 축소 방법 14
2.3 고차원 색인 기법 17
2.4 학습된 색인 기법 22
2.5 아파치 스파크 25
III. 제안하는 고차원 색인 기법 28
3.1 연구 동기 29
3.2 전체 구조 및 처리 절차 30
3.3 전처리 과정 35
3.4 VA-File 색인 구축 과정 41
3.5 학습된 색인 구축 과정 53
3.6 질의 처리 과정 56
IV. 성능평가 62
4.1 성능평가 환경 62
4.2 VA-File 구성 파라미터에 대한 정확도 보존 성능 66
4.3 색인 구축 소요 시간 및 색인 크기 71
4.4 학습된 색인 탐색 성능 결과 73
4.5 전체 데이터 탐색 결과 75
4.6 성능평가 결과 91
V. 결 론 92
참고문헌 94

최근 본 자료

전체보기

댓글(0)

0