메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김남훈 (전남대학교, 전남대학교 대학원)

지도교수
양형정
발행연도
2018
저작권
전남대학교 논문은 저작권에 의해 보호받습니다.

이용수6

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)를 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 어절 단위로 분리하여 명사와 형용사만 추출 한 후 Tdm(Term Document matrix)에서 DF(Document Frequence)값이 높은 단어 들을 추출 해 불용어로 처리 하였습니다. 제목은 본문과 연결하였고. 각 문서마다 LDA를 이용하여 토픽을 생성 한 후 문서 내의 단어 중 토픽에 포함된 단어의 경우 기존 단어에 추가로 토픽 내 단어를 추가 하였습니다. 문서의 단어의 의미와 순서를 고려하여 문서를 벡터화 시키고 그 값을 CNN의 입력으로 사용하였습니다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 기존의 방법보다 한국일보 데이터에서는 5.4%, 해외과학기술문헌속보의 데이터에서는 4.7%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서 범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

목차

Ⅰ. 서론 1
1. 문제 제기 1
2. 연구 목적 및 방법 2
3. 논문의 구성 3
Ⅱ. 배경 지식 및 관련 연구 4
1. 문서 분류 4
2. 단어 및 문서 벡터화 4
2.1. Bag-of-words 모델 4
2.2. 단어 빈도와 역문서 빈도(Tf-Idf) 5
2.3. LDA(Latent Dirichelt Allocation) 6
2.4. 단어 벡터화 (Word2vec) 7
2.5. 문서 벡터화(Doc2vec) 9
3. 코사인 유사도 10
4. 컨볼루션 신경망(Convolutional Neural Network, CNN) 11
5. 관련연구 13
Ⅲ. 제안 시스템의 구성 및 세부구조 15
1. 제안방법 15
2. LDA (Latent Dirichlet Allocation) 16
3. Word2vec과 Doc2vec을 활용한 16
4. CNN(Convolutional Neural Networks) 16
Ⅳ. 실험 17
1. 실험 방법 17
2. 제안하는 모델의 CNN 분류기 매개변수 튜닝 19
Ⅴ. 실험 결과 22
Ⅵ. 결론 및 향후 연구 방향 25
참고문헌 26
Abstract 29

최근 본 자료

전체보기

댓글(0)

0