메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

고건우 (경기대학교, 경기대학교 대학원)

지도교수
최성필
발행연도
2020
저작권
경기대학교 논문은 저작권에 의해 보호받습니다.

이용수7

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
이 연구의 목적은 데이터 큐레이션 및 데이터 분류, 정보 추출 등의 자연어 처리 분야에서 기계 학습을 위한 대규모 말뭉치 구축을 효과적으로 돕는 어노테이션 시스템을 구현하고, 구현 시스템의 성능 및 효용성을 제안하는데 있다.
어노테이션 시스템은 국내외를 막론하고 실용 및 연구 목적으로 개발되어 다양한 분야에 이용되고 있고, 특히 텍스트에서의 정보 추출 및 기계 학습을 위한 대규모의 말뭉치 구축을 지원하는 시스템이다. 최근의 어노테이션 시스템은 이용자의 개발 환경에 독립적이며, 개체명 인식기 및 관계 추출기 등을 부착하여 어노테이션을 자동으로 추출하는 기능을 제공하는 등 다양한 형태의 시스템이 개발되고 있다.
2007년 종료된 21세기 세종계획의 일환으로 약 2억어절의 말뭉치가 구축된 이후 대규모의 한국어 말뭉치 구축 사례는 찾기 어려워졌고, 국가 주도의 움직임이 아닌 연구 기관 및 개인 등이 말뭉치를 구축한다는 것은 굉장한 시간 및 비용이 소모되는 일이다. 또한, 말뭉치 구축을 용이하게 하는 어노테이션 시스템 중 한국어를 완벽히 지원하는 어노테이션 시스템과 더 나아가 한국어 관련 자연어 처리 모듈이 탑재된 어노테이션 시스템은 찾기 어렵기 때문에, 한국어 기반의 어노테이션 시스템의 구현에 대한 필요성이 대두되었다.
본 논문에서 제안하고 구현한 어노테이션 시스템은 한국어 말뭉치 구축을 용이하게 하기 위하여 자연어 처리 기반 모듈의 탑재를 통해 반자동의 말뭉치 구축을 가능하게 하였고, 시각화를 통하여 어노테이션 부여자의 직관적인 어노테이션 작업을 지원하고자 하였으며, 말뭉치 구축에 드는 시간과 비용을 절감하여 효율을 높이고자 하였다. 또한, 본 논문에서 제안하는 어노테이션 시스템은 한국어 처리에 문제가 없음과 동시에 영어 등의 다른 언어도 지원 가능할 수 있도록 구현하였다.
더 나아가, 어노테이션 시스템을 통하여 선학습된 기계 학습 모델의 추가 학습을 가능하게 하여 어노테이션 작업을 하는 것만으로 기존보다 성능이 개선된 기계 학습 모델을 얻을 수 있도록 구현하였다. 실험 결과, 기존의 75.98% 보다 약 1.03% 상승한 F1 점수를 얻을 수 있었고, 이를 통하여 어노테이션 시스템을 통한 추가 학습 시 기계 학습 모델의 성능 개선 여부를 입증하였다.

목차

1. 서론 1
1.1 연구의 필요성 및 목적 1
1.2 연구의 내용 및 방법 3
1.3 연구의 제한점 5
2. 이론적 배경 6
2.1 어노테이션 및 어노테이션 시스템 6
2.1.1 말뭉치 7
2.1.2 어노테이션 시스템 관련 연구 8
2.2 딥러닝 기술 16
2.2.1 CNN(Convolutional Neural Networks) 16
2.2.2 RNN(Recurrent Neural Networks) 17
2.2.3 LSTM(Long-Short-Term-Memory Networks) 18
2.2.4 Transformer 19
2.2.5 ELMo 22
2.2.6 BERT 24
2.2.7 Online Algorithm 26
3. 어노테이션 시스템 구현 28
3.1 어노테이션 시스템 28
3.1.1 Back-End 29
3.1.2 Front-End 30
3.1.3 어노테이션 시스템의 기능 41
3.2 어노테이션 시스템을 통한 모델의 추가 학습 46
3.2.1 학습 모델 복원 49
3.2.2 어노테이션 데이터 전처리 50
3.2.3 모델의 추가 학습 50
4. 실험 및 결과 분석 51
4.1 활용 말뭉치 51
4.1.1 한국어 개체명 인식 말뭉치 51
4.2 실험 설계 52
4.2.1 모델의 추가 학습 실험 52
4.3 실험 결과 분석 53
4.3.1 추가 학습 모델의 성능 개선 여부 분석 53
5. 결론 56
참고문헌 57
Abstract 61

최근 본 자료

전체보기

댓글(0)

0