메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

문준석 (연세대학교, 연세대학교 대학원)

지도교수
김우주
발행연도
2021
저작권
연세대학교 논문은 저작권에 의해 보호받습니다.

이용수16

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
최근 주목받고 있는 Transformer 기반 언어 모델인 BERT(Bidirectional Embedding Representations from Transformers)는 다양한 task(task)에서 높은 성능을 달성하고 있다. 그러나 BERT는 사전 학습(pre-training)을 진행한 Wikipedia 데이터와 단어 분포가 다른 특정 분야의(domain specific) 문서의 경우 문맥 정보를 파악하기 힘들다는 단점이 존재한다. 본 논문은 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)으로 대표되는 토픽 모델링(Topic Modeling)의 토픽별 단어 분포 정보를 BERT와의 Attention 기법을 통해 언어 모델에 토픽 정보를 추가할 수 있는 Topic Attention Layer를 고안하고, 이를 MLM(Masked Language Modeling) 및 TDP(Topic Distribution Prediction) 손실(loss)을 통해 post-training을 진행하여 특정 분야에 적합한(domain-adaptive) 언어 모델을 학습시키고, fine-tuning에서의 성능을 제고할 수 있는 방법을 제안한다. 본 모델을 CFPB(Consumer Financial Protection Bureau)의 Consumer Complaint Database의 데이터를 사용하여 학습시킨 결과, post-training 및 fine-tuning에서 기존의 BERT만을 사용한 결과보다 높은 성능을 보여주었다.

목차

등록된 정보가 없습니다.

최근 본 자료

전체보기

댓글(0)

0