메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

임현근 (배재대학교, 배재대학교 일반대학원)

지도교수
정회경
발행연도
2019
저작권
배재대학교 논문은 저작권에 의해 보호받습니다.

이용수4

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
4차 산업혁명의 시대에 특허와 같은 지적 재산을 확보하여 기술시장에서 경쟁우위를 선점하기 위한 기업들의 기술경쟁은 더욱 심화되고 있다. 매년 특허 등록량은 증가하고 있는 양상을 보이나 현재 전문가 기반의 정석적 접근 방식의 특허 분석 방법으로는 증가하는 특허의 등록량을 처리하기에는 제한적인 상황이다. 이를 해결하기 위해 특허 분석을 자동화 하려는 시도들이 있어 왔다. 기존 연구4차 산업혁명의 시대에서는 유사 특허를 검색하는 방법으로 키워드 검색 방법을 사용하였으나 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다.
키워드 검색방법은 문서에서 핵심 키워드를 추출하여 키워드를 인덱스 기반으로 저장하고 검색 엔진을 통한 키워드 가중치 기반의 검색 과정이고 머신러닝을 사용하는 과정은 특허 문서에서 텍스트 특징(Feature)을 추출하여 벡터 데이터로 변형한 이후에 데이터 기반의 유사도가 높은 라벨(Label)로 분류하는 방법이다. 키워드 검색방법은 데이터 정제를 통해 정형화된 텍스트의 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어가 불규칙 하게 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다.
키워드 검색과 머신러닝 분석방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 과정이 다르기 때문에 동시 적용에는 구현상의 문제점이 있었다.
이에 본 연구는 기존의 검색방법에 머신러닝을 활용한 자동 분류방법 그리고 비정형 텍스트에 의미 분석 방법인 토픽 모델링 알고리즘을 결합하여 효율적인 유사 의미 특허를 검색하는 방법을 연구하였다.
1차적으로 검색 분류방법으로 특허 다중 분류를 위해 실제 특허 데이터를 기반으로 Naive Baysian 모델을 학습시켰다. WIPO에서 제공되는 공개 특허중 A그룹의 5160개의 특허 abstract를 활용하여 분석을 진행하였고, 그 결과 약 87%의 정확도로 특허 클래스를 분류하는 결과를 얻었으며, SVM(88%) 알고리즘과 비교해서 정확도 차이가 거의 없는 것을 확인하였다. 또한 2차 방법으로 1차에서 분류된 특허분류의 자질의 정확도를 높이기 위하여 키워드 검색방법에 사용할 키워드를 Text Rank 방법으로 생성하였다. 키워드 추출 방법을 단순 키워드 빈도수를 측정하는 TF-IDF 방법보다 Text Rank 방식을 사용하여 단어의 연관(Apriori)도가 높은 어절을 구성하여 관련도가 높은 내용 검색이 가능하도록 하였다. 현재 대부분의 검색 서비스에서 단일 키워드 기준으로 서비스 되지만 연관어 검색방법도 차츰 보급되고 있다.
마지막으로 연관 키워드로 검색된 후보 문서들에서 잠재 의미 분석(LDA) 방식을 사용하여 분석 대상 문서와 의미 유사도가 높은 문서를 분류 할 수 있었다.
본 연구로 검색 엔진에 머신러닝 기능을 추가함으로써 기존 시스템에서도 빠르게 특허의 의미 분석이 가능한 시스템을 구축할 수 있었다. 특허와 같이 방대한 양의 데이터를 저 사양 PC에서도 분석 가능한 시스템을 구현하였다.
이 연구를 통해 특허 분석에 대한 시스템을 효과적으로 구축하여 실질적인 특허 출원이나 심사과정에서 비용과 시간을 줄이고 조금 더 정확한 특허검색을 가능하게 할 것으로 기대된다.

목차

국문초록 ⅰ
목 차 ⅲ
그림목차 ⅴ
표 목 차 ⅶ
Ⅰ. 서 론 1
1.1 연구배경 및 목적 1
1.2 연구내용 및 범위 3
1.3 논문의 구성 4
Ⅱ. 관련연구 5
2.1 특허 문서 구조 5
2.2 특허문서 분류 방법 8
2.3 키워드 추출 12
2.4 LDA 유사도 검증 14
Ⅲ. 시스템 설계 18
3.1 서비스 구성 18
3.1.1 서비스 범위 19
3.1.2 기능 요구사항 20
3.1.3 시스템구성 20
3.2 단계별 처리 과정 22
3.2.1 문서의 전처리 22
3.2.2 문서 분석 단계 27
3.2.3 특허 검색 32
3.2.4 특허 토픽 분석 34
Ⅳ. 시스템 구현 및 실험 36
4.1 구현 환경 36
4.2 시스템 구현 38
4.2.1 MS Azure 38
4.2.2 Web Page 40
4.2.3 Application 구성 43
4.3 실험 43
Ⅴ. 결 론 45
참고문헌 48
영문초록 52
감사의 글(Acknowledgement) 54

최근 본 자료

전체보기

댓글(0)

0