메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이주상 (울산대학교, 울산대학교 전기전자컴퓨터공학과)

지도교수
옥철영
발행연도
2018
저작권
울산대학교 논문은 저작권에 의해 보호받습니다.

이용수17

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
딥 러닝의 대한 관심이 높아지면서 자연어 처리 연구에도 딥 러닝을 활용한 연구들이 활발하게 진행되고 있다. 자연어 처리에서 딥 러닝을 사용하려면 문자인 자연어를 어떻게 컴퓨터가 이해하는 심볼로 표현하는 것이다. 단어를 하나의 심볼로 표현하는 방법을 단어 표현이라 한다. 그 중에 벡터 공간에 단어 표현하는 방법에 대해 많은 연구가 진행되고 있다.
벡터 공간에 단어를 표현하기 위해 말뭉치와 인공신경망을 사용한다. 말뭉치에서 단어의 주변 단어를 이용하여 학습 데이터를 생성하며 인공신경망을 통해 단어를 벡터 공간에 표현한다. 말뭉치를 이용한 단어 임베딩은 학습에 사용된 말뭉치에 영향을 받는다. 학습에 사용하는 말뭉치의 크기에 따라 학습할 수 있는 단어의 수가 결정된다. 또한 말뭉치에서 단어의 등장 빈도수에 따라 학습의 결과가 달라지는 문제점을 가지고 있다.
본 논문에서는 사전과 한국어 어휘 지도(UWordMap)을 활용하여 한국어 단어 임베딩을 실시한다. 사전에 등장하는 단어의 뜻풀이에서 일반명사, 고유명사, 형용사, 동사를 추출하여 학습에 사용한다. 어휘 지도에서는 명사 단어의 상위어 정보와 반의어 정보를 사용한다.
사전과 어휘 지도를 통해 생성한 학습데이터는 자질 거울 모델을 사용하여 학습한다. 자질 거울 모델은 인간이 알지 못하는 단어를 이해하기 위해 사전을 찾아 보는 것에 영감을 받은 모델이다. 인간은 사전에 등재된 단어의 뜻풀이를 통해 단어의 의미를 파악하며 뜻풀이 안에 등장하는 단어에 대해서도 사전의 정보를 이용하면 이해할 수 있다. 이러한 인간이 처음 보는 단어를 이해하는 방식을 학습 모델로 만든 것이 자질 거울 모델이다. 자질 거울 모델을 사용해 인간이 학습하는 방식처럼 단어를 벡터화 한다.
사전과 어휘 지도를 이용하여 동형이의어 수준의 한국어 단어 임베딩을 실시했다. 표준국어대사전에 등재된 명사, 동사, 형용사, 부사, 조사 단어를 대상으로 학습하며 총 408,739개의 단어를 학습한다. 단어에 대한 유의어 검색 실험에서는 단어의 사전적 의미와 유사한 단어들이 높은 코사인 유사도를 가지는 것을 볼 수 있다.
동형이의어 수준에서 단어가 가지는 다의어로 인해 유의어 검색에 어려움을 가진다. 뜻풀이가 많아질수록 단어의 의미 분별이 어렵기 때문에 해결을 위해 다의어 수준 단어 임베딩을 실시했다. 다의어 수준으로 명사, 동사, 형용사, 부사, 조사 단어를 대상으로 총 475,058개의 단어를 학습했다. 다의어 수준의 단어 임베딩 실험은 각 단어의 유의어 검색을 통해 동형이의어 단어 임베딩과 비교했다. 비교 결과 동형이의어 수준의 단어 임베딩의 유의어가 복합적으로 나타나는 반면 다의어 수준 단어 임베딩은 다의어 단어 하나가 가진 의미에 대한 유의어만 등장했다. 다의어 수준 단어 임베딩을 통해 단어에 대해 세분화된 벡터로 표현이 가능했다. 하지만 사전 기반 단어 임베딩에서 유의어로 등장하는 단어들은 실생활에서 쓰는 단어가 아니며 실제 사용 빈도수가 매우 낮거나 적은 단어들이 등장하는 문제점을 가지고 있다.
말뭉치 기반에서 반의어 관계에 있는 단어 쌍은 문장에서 위치상 비슷하기 때문에 벡터가 유사하게 표시된다. 반의어 단어 쌍의 주변 단어들도 유사하게 표시되는 문제를 해결하기 위해 어휘 지도에 포함된 단어의 반의어 정보를 사용한다. 반의어 실험은 말뭉치 기반의 Skip-gram과 반의어를 학습에 포함하지 않은 모델과 비교한다. 반의어 학습을 통해 두 단어의 하위 집단에 대해 분별이 어려운 문제를 해결이 가능했다. 그리고 부정형 뜻풀이의 개선을 통해 뜻풀이에서 추출하지 않은 부정형 보조 용언에 대한 고려가 가능하며 정확한 단어의 의미를 벡터에 내재하는 것이 가능했다.

목차

목차
1 서론 1
1.1 연구 배경 1
1.2 관련 연구 4
1.2.1 벡터 공간 단어 임베딩 4
1.2.2 한국어 단어 임베딩 8
2 사전과 어휘 의미 정보 및 자질 거울 모델 10
2.1 사전과 어휘 의미 정보 10
2.1.1 단어의 사전 정보 10
2.1.2 어휘 의미 정보 13
2.2 자질 거울 모델 14
3 사전과 어휘 지도를 이용한 동형이의어 단어 임베딩 20
3.1 동형이의어 수준 단어 임베딩 20
3.2 동형이의어 단어 임베딩 실험 22
3.2.1 단어의 유의어 검색 22
4 사전과 어휘 지도를 이용한 다의어 단어 임베딩 27
4.1 다의어 수준 단어 임베딩 27
4.2 다의어 단어 임베딩 실험 27
4.2.1 다의어 단어 유의어 검색 27
4.2.2 두 단어의 유의어 검색 31
4.2.3 의미 요소의 삭제, 추가 후 유의어 검색 32
4.3 다의어 단어 임베딩을 사용한 다의어 중의성 해소 실험 34
5 반의어와 부정적 어휘를 활용한 단어 임베딩 37
5.1 반의어와 부정적 어휘 37
5.2 반의어를 사용한 단어 임베딩 37
5.3 부정적 어휘가 등장한 뜻풀이를 개선한 단어 임베딩 40
6 결론 44

최근 본 자료

전체보기

댓글(0)

0