본 논문의 목적은 무형문화유산 연구 분야에 축적된 빅데이터를 분석하여 연구동향과 지식체계를 파악하는 데있다. 구체적인 연구결과를 얻기 위해 다음과 같은 목표를 정해 연구를 하였다. 첫째, 무형문화유산 관련 논문이최초로 발표된 1965년부터 2020년 최근까지 관련 학술계와 고등교육 분야에서 발표된 논문 현황은 어떻게되는가? 둘째, 무형문화유산 관련 학술계와 고등교육 분야에서 논의의 중심이 되는 연구주제는 무엇인가? 셋째,무형문화유산 관련 논문 저자들 사이에서 오갔던 화젯거리(토픽)는 무엇인가? 넷째, 토픽, 연구영역, 연구주제등은 시기별로 어떻게 변화되었는가? 다섯째, 분석결과는 어떻게 시각화되고 그 특징은 무엇인가?이러한 목표 아래 연구는 크게 ‘데이터 수집’, ‘데이터 정제’, ‘데이터 분석’, ‘분석결과 시각화 및 해석’ 4단계로진행하였다. 연구동향 분석을 위한 학술 데이터는 한국교육학술정보원에서 수집하였다. 1965년부터 2020년최근까지 관련 학술논문 1,443편과 학위논문 1,222편의 초록 및 서지정보 등 비정형 데이터를 수집하였다. 수집된 비정형 데이터는 컴퓨터 분석이 가능하도록 데이터 전처리 작업을 하였다. 전처리 작업을 통해 추출된학술논문 분야 14,403개 단어와 학위논문 분야 14,296개 단어를 넷마이너 프로그램을 이용해 토픽 모델링과텍스트 네트워크 분석을 하였다. 토픽 모델링이란 대규모 문서집합에서 숨어 있는 토픽을 발굴하고 토픽에 따라 문서를 추출, 분류하는 기계학습알고리즘이다. 토픽 모델링은 인간이 파악하기 어려운 규모의 문서집합에서 어떤 이야깃거리가 숨어 있는지알아보는 데 유용하다. 텍스트 네트워크 분석은 네트워크 이론과 분석기법을 바탕으로 발전한 방법이다. 이 방법은단어 사이의 연결 관계를 구조적으로 분석하고 시각화함으로써 추상적인 내용을 구체화하는 데 용이하다. 본 논문은 텍스트 마이닝을 기반으로 한 토픽 모델링과 텍스트 네트워크 분석방법을 이용해 무형문화유산학술계 및 고등교육 분야의 연구동향과 지식체계를 연구한 결과물이다. 본 논문의 연구방법론을 통해 무형문화유산 분야에서 빅데이터의 활용이 활성화되는 데 기여했다는 점에서 연구의의를 찾을 수 있다. 또한 무형문화유산 분야 주요 개념, 연구영역 등의 연결 구조를 시각화하여 제공함으로써 추상적인 내용을 직관적으로 파악할 수 있게 되었다는 점에서 연구의미가 있다.
This paper aims to analyze the academic big data in the field of intangible cultural heritageusing text-mining and explore the research trends and knowledge system. To achieve concreteresults, the research was conducted with following goals: First, “What is the important centraltheme in the research of intangible cultural heritage?”; Second, “What are the major topics inthe field of intangible cultural heritage research?”; Third, “How the major topics and subjectshave changed in the field of intangible cultural heritage and what are their characteristics?”;and Fourth, “How is the result of analysis visualized into a network map and what are thecharacteristics in it?”With such goals, the research followed 4 steps, ‘Data Collection’, ‘Data Refinement’, ‘DataAnalysis’, and ‘Integrating and Interpretation’. The data was collected during the periodbetween 1965, when the very first paper on intangible cultural heritage was published in SouthKorea, and 2020 from 1,443 academic papers, 1,222 dissertations, and 2,665 abstracts andbibliographic data. The collected unstructured data was refined for computer-aided analysis. Firstly, nominal morphemes were extracted using Korean morpheme analyzer, and then variouscontrolling and TF-IDF analysis were applied. 14,403 words from academic papers and 14,296words from dissertations have undergone topic modeling and text network analysis withNetMiner program. Topic modeling is a probabilistic algorithm to find out subjects and topics hidden in a largeset of documents, and extract and classify documents according to the topic. Text networkanalysis applies the network theories and analysis methods that developed out of sociologyto literature analysis. This method analyzes the structure of connected words in the text andshows the result in the form of a network map. Recent big data analyses is evolving towardsutilizing various optimized analytical techniques in order to enhance the reliability of the analysis result. This paper, thus, used topic modeling and network analysis to draw a result thatis optimal for the purpose of our research. This paper finds its significance in that it contributed to encouragement of relevant studiesas it used the text-mining technique to analyze the big data that has accumulated in the fieldof intangible cultural heritage. In addition, it has a substantial contribution as it provided avisualized knowledge map to reveal the relationship of keywords and main topics in the field ofintangible cultural heritage, which led to intuitive understanding of the abstract contents.