메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

장희원 (연세대학교, 연세대학교 대학원)

지도교수
김우주
발행연도
2016
저작권
연세대학교 논문은 저작권에 의해 보호받습니다.

이용수12

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 연구는 정보 검색에서 문서 간 유사도를 구할 때 사용할 수 있는 문서의 특징벡터를 구하는 방법을 제안한다. TF-IDF와 같은 기존의 연구에서는 문서에 출현한 단어를 기준으로 단어의 가중치가 만들어 지기 때문에 유사하거나 관련이 있는 단어로 이루어진 문서가 있어도 두 문서 간에 일치하는 단어들의 특성치만 고려하기 때문에 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구에서 제시할 방법은 입력받은 문서의 TF-IDF와 같은 단어의 출현기반 벡터공간모델에서 출현한 단어의 특성 값을 단어 간 유사도를 사용하여 유사한 단어들에게 가중 시킴으로써 출현하지 않은 유사한 단어의 특성 값을 간접평가하고 출현한 단어의 특성 값에 대해서도 유사단어의 특성 값에 대해 가중치를 주고 이를 통해 만들어진 문서의 특성벡터를 활용해 관련문서를 검색하는 방법이다. 단어 간 유사도를 구하기 위해서 신경망 알고리즘의 일종인 Word2vec을 활용하였다. Word2vec은 단어를 N차원의 특징벡터로 학습시키는 것으로 학습된 단어의 벡터는 단순히 수치적의미가 아닌 N차원의 공간에서 단어가 가지고 있는 의미적인 위치를 표현한다. 모델을 학습시킬 때 설정한 Window_size만큼 주변 문맥을 고려하여 학습이 되기 때문에 비슷한 문맥에서 자주 출현하게 되는 유사 단어들의 N차원 벡터는 학습과정에서 점점 비슷한 위치를 가진다. Word2vec을 활용함으로써 출현한 단어의 특성 값을 유사한 단어에 가중 시켜줄때 단어의 의미또한 고려하고자 하였다. 본 연구의 성과를 검증하기 위해서 철도기술연구원의 연구요약서 2부를 사용하여 관련된 법령을 찾는 예제를 수행하였다.

목차

등록된 정보가 없습니다.

최근 본 자료

전체보기

댓글(0)

0