최근 주목받고 있는 Transformer 기반 언어 모델인 BERT(Bidirectional Embedding Representations from Transformers)는 다양한 task(task)에서 높은 성능을 달성하고 있다. 그러나 BERT는 사전 학습(pre-training)을 진행한 Wikipedia 데이터와 단어 분포가 다른 특정 분야의(domain specific) 문서의 경우 문맥 정보를 파악하기 힘들다는 단점이 존재한다. 본 논문은 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)으로 대표되는 토픽 모델링(Topic Modeling)의 토픽별 단어 분포 정보를 BERT와의 Attention 기법을 통해 언어 모델에 토픽 정보를 추가할 수 있는 Topic Attention Layer를 고안하고, 이를 MLM(Masked Language Modeling) 및 TDP(Topic Distribution Prediction) 손실(loss)을 통해 post-training을 진행하여 특정 분야에 적합한(domain-adaptive) 언어 모델을 학습시키고, fine-tuning에서의 성능을 제고할 수 있는 방법을 제안한다. 본 모델을 CFPB(Consumer Financial Protection Bureau)의 Consumer Complaint Database의 데이터를 사용하여 학습시킨 결과, post-training 및 fine-tuning에서 기존의 BERT만을 사용한 결과보다 높은 성능을 보여주었다.
BERT (Bidirectional Embedding Representations from Transformers), a recently spotlighted Transformers based language model, achieves high performance on various tasks. But in case of domain-specific corpora that have a different word distribution with Wikipedia data used for pre-training of BERT, it is difficult for BERT to understand the contextual information of the corpora. In this paper we present Topic Attention Layer, a decoder layer of Transformers using topic information for training a domain-adaptive language model. Topic Attention Layer can be post-trained by masked language model (MLM) and topic distribution prediction (TDP) and fine-tuned for various supervised tasks. We find Topic Attention Layer shows higher performance than base BERT model in post-training and fine-tuning using domain-specific data from Consumer Financial Protection Bureau (CFPB)’s Consumer Complaint Database, and propose that topic model can help language model like BERT in domain-adaptive learning by providing topic information.