메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이순근 (강릉원주대학교, 江陵原州大學校)

지도교수
嚴完燮
발행연도
2016
저작권
강릉원주대학교 논문은 저작권에 의해 보호받습니다.

이용수11

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
특허권은 현대와 같이 발달된 기술사회와 치열한 기업 간의 경쟁 속에서 기술의 선점이라는 측면에서 그 중요성이 증대되고 있다. 이에 세계적으로 연간 출원되는 특허권의 수도 방대하며, 편의성 및 효율성으로 인해 전자문서의 형식으로 분류, 저장되고 있다. 이와 같이 분류, 저장된 특허문서들은 그에 대한 분석 및 평가를 통해 해당 기술의 강점 및 약점을 평가하는데 사용되고 있으며 또한, 응용 기술의 개발이나 새로운 기술 개발에 있어 그와 관련된 특허기술에 대한 분석은 중복 투자와 불필요한 노력을 회피하기 위해서도 필수 불가결한 요소가 되고 있다. 이러한 방대한 특허문서로부터 분석 및 평가 등에 사용할 유용한 정보를 추출하기 위해서는 텍스트 마이닝의 기술을 활용해야 하며 이 기술을 적용하기 위해 가장 기본은 해당 특허문서의 특징을 가장 잘 반영할 수 있는 최소한의 키워드들을 추출해 내는 것이다. 본 논문에서는 일반문서와 다른 특허문서의 반구조적인 특성을 활용하여 효율적으로 키워드들을 추출하는 관계성 그래프 모델을 제시하고자 한다. 제안된 모델을 구성하는 정점들은 기존의 벡터공간모델을 이용하여 추출된 상위 후보 키워드들이며 간선들은 이들 후보 키워드들 간의 관계성을 반영하도록 하였다. 관계성은 특허문서의 반구조적인 특성과 동일 문장 내에 나타난 빈도수에 기반하여 산출하며 그 값을 간선의 레이블로 하여 표현한다. 이 관계성이 임계값 이하를 갖는 간선들을 제거하는 간선 자르기 과정을 수행한 후 다른 후보 키워드들과 관계성이 없는 후보 키워드들을 제거함으로서 일정 정도 이상의 관계성을 갖는 키워드들을 추출한다. 다음 단계로 보다 강한 관계성을 갖는 키워드들만을 추출하기 위해 그리드 알고리즘(Grid Algorithm)의 한 종류인 최단경로 알고리즘을 변형한 최대 관계성 알고리즘을 적용한다. 이 알고리즘을 통해 관계성이 높은 키워드들만으로 구성된 키워드 리스트를 추출한다. 제안한 모델의 평가를 위해 미국특허청에 등록된 임의의 특허문서 50개를 임의로 선택하여 실험하였으며 벡터모델로부터 추출된 여러 상위 후보 키워드 군들에 대해 간선 자르기 과정을 적용한 결과 평균적으로 30% 이상 키워드 군의 크기를 줄였으며, 최대 관계성 알고리즘을 적용한 경우에는 평균 40% 이상의 향상된 효과를 보여주었다. 또한 제안한 모델은 특허문서 내용을 기반으로 하여 키워드들을 추출하였기 때문에 키워드 군의 크기의 축소에도 불구하고 해당 특허문서의 특징을 잘 반영하였다. 결과적으로 본 논문에서 제시한 특허문서의 반구조적인 특성을 반영한 관계성 그래프 모델은 특허문서로부터 키워드를 추출하는데 효율적임을 알 수 있었다.

목차

1. 서론 1
1.1 연구 배경 및 목적 1
1.2 연구방법 2
2. 텍스트 마이닝 4
2.1 텍스트 마이닝의 개요 4
2.1.1 정보추출 5
2.1.2 요약 5
2.1.3 분류 5
2.1.4 클러스터링 6
2.1.5 개념 링키지 6
2.1.6 정보시각화 6
2.2 키워드 추출 7
2.2.1 통계적 접근 방법 7
2.2.2 기계 학습 접근 방법 8
2.2.3 특허문서로부터 키워드 추출 8
2.3 텍스트 데이터 표현 모델 9
3. 특허문서로부터 키워드 추출을 위한 관계성 그래프 모델 12
3.1 개요 12
3.2 후보 키워드 군 추출 13
3.3 섹션별 후보 키워드 군의 문장 내 위치 정보 추출 13
3.4 관계성 기반 인접행렬 16
3.5 두 후보 키워드들 간의 관계성 척도 20
3.6 간선 자르기 21
3.7 간선 자르기 후 키워드 추출 24
3.8 최대 관계성 알고리즘 27
4. 실험 및 평가 37
4.1 실험 데이터 37
4.2 특허문서의 반구조적 특성 39
4.3 후보 키워드군 추출 41
4.4 관계성 그래프 모델 적용 45
4.5 최대 관계성 알고리즘 적용 56
5. 결론 64
참고 문헌 66
[ 별첨 - 실험 데이터 ] 74

최근 본 자료

전체보기

댓글(0)

0