최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 캠페인에 중복적인 노출로 인해 피로감이 커지면서 캠페인 자체를 스팸으로 인식하는 경향이 생기고 있고, 기업 입장에서는 캠페인에 투자하는 비용은 오히려 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들을 필요로 하고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 크기와 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요해 지고 있다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SFFS(Sequen tial Floating Forward Selection), SBS(Sequential Backward Selection), SFBS(Sequential Floating Backward Selection) 등이 많이 사용 되었지만 최적 특징만을 학습 후 모델을 생성하므로 과적합의 위험성이 크고, 특징이 많은 경우 분류 예측 성능이 떨어지고 학습시간이 많이 소요된다는 한계점을 가지고 있다(Lee, Park and Lee, 2017). 이에 본 연구에서는 기존의 캠페인 수행시 효율성을 높이기 위해 더 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 캠페인별로 대상자를 선정하는 분류를 위해 기계학습을 사용하고 특징 부분 집합을 탐색시 SFFS의 기존 순차적인 방식을 개선하여 효율성을 높이는 것이다. 구체적으로는 먼저 각 특징들의 데이터 변형을 통해 분류 성능에 영향을 많이 끼치는 특징들을 선택하기 위해 우선순위를 확인하여 긍정적인 특징들을 먼저 선택을 하고 선택되지 않은 특징들을 정확도가 더 높아지지 않을 때 까지 순차방식을 적용하여 궁극적으로 전체적인 탐색 성능에 대한 효율을 높이고 분류 성능을 개선하였다. 또한 랜덤포레스트를 분류기를 통해 좀 더 일반화된 예측이 가능하도록 하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과 순차 탐색방법의 SFFS 보다 훨씬 더 빠르게 최적의 특징 선택이 가능하였고 분류 성능에 있어서도 더 우수한 결과를 보였다. 전통적인 탐욕알고리즘 외에도 유전자알고리즘(GA, Genetic Algorithm), RFE (Recursive Feature Elimination) 같은 기존 기법들 보다도 제안된 모형이 더 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안된 특징 선택 알고리즘은 도출된 특징들이 분류 성능에 얼마만큼의 영향을 미치는지의 특징별 중요도를 제공할 수 있어 예측 결과 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 과거 경험기반으로 알고 있던 중요한 특징들에 대한 내용이 실제 캠페인 성공을 위해 영향을 미치는 특징들과 얼마나 다른지에 대한 분석과 이해가 가능할 것으로 기대된다. 이를 통해 현재의 기업에서 수행되는 다양한 유형들의 캠페인 기획시 많은 시간과 비용이 소요되는 부분을 개선할 수 있고 꼭 필요한 고객에게 적절한 캠페인 수행을 할 수 있게 될 것으로 기대한다. 기업에서의 다양한 캠페인들은 목적에 따라 캠페인을 수행하는 대상자들이 모두 다르기 때문에 다양한 캠페인 유형에 적합한 대상자 선정을 통해 무분별하게 수행되어지는 캠페인들을 성공 가능성이 높은 고객들에게만 실행 할 수 있도록 활용이 가능하게 되어 궁극적으로 캠페인 효과 제고를 위해 중요한 의의를 가지고 있다.
Recently, as campaign channels have been diversified due to the rapid activation of online, various types of campaigns are being carried out in companies that are incomparable to the past. However, from the customer''s point of view, the campaign itself is perceived as spam as fatigue increases due to repeated exposure to the campaign, and the company''s investment in the campaign has increased, but the actual campaign success rate is rather lower. There is a problem that the effectiveness of the campaign itself is decreasing, so various studies are needed to increase the effectiveness of the campaign in practice. In particular, recently, attempts have been made to make various predictions related to campaign response using machine learning. At this time, it is becoming very important to select appropriate characteristics due to the size and various characteristics of campaign data. Among the greedy algorithms, SFS (Sequential Forward Selection), SFFS (Sequential Floating Forward Selection), SBS (Sequential Backward Selection), SFBS (Sequential Floating Backward Selection), etc. have been widely used as traditional feature selection techniques. Since the model is created after learning, there is a high risk of overfitting, and when there are many features, classification prediction performance decreases and training time is required (Lee, Park and Lee, 2017). Therefore, in this study, we propose a more improved feature selection algorithm to increase the efficiency of the existing campaign. The purpose of this study is to use machine learning for classification that selects subjects for each campaign in the campaign system and to improve the efficiency of the existing sequential method of SFFS when searching for feature subsets. Specifically, first, positive features are selected first by checking the priority in order to select features that have a great influence on classification performance through data transformation of each feature, and unselected features are sequentially selected until the accuracy is not higher. By applying the method, ultimately, the efficiency of the overall search performance was increased and the classification performance was improved. In addition, the random forest was used to make more generalized predictions through the classifier. As a result of verifying the performance using actual campaign data, it was possible to select the optimal feature much faster than the SFFS of the sequential search method, and showed better results in classification performance. In addition to the traditional greedy algorithm, it was confirmed that the proposed model showed better search and prediction performance than existing methods such as Genetic Algorithm (GA) and Recursive Feature Elimination (RFE). In addition, the proposed feature selection algorithm can provide the importance of each feature of how much influence the derived features have on classification performance, which can help in the analysis and interpretation of prediction results. Through this, it is expected that it will be possible to analyze and understand how different the contents of the important characteristics known based on past experience are different from the characteristics that influence the actual campaign success. Through this, it is expected that it will be possible to improve the part that takes a lot of time and money when planning various types of campaigns carried out in current companies, and it is expected that it will be possible to carry out appropriate campaigns to the customers who need it. Since the target audience for various campaigns in a company is different depending on the purpose, it is possible to use the campaigns that are carried out indiscriminately through selection of targets suitable for various types of campaigns so that only customers with high probability of success can be used. Therefore, it has important significance for enhancing the effectiveness of the campaign.
목차
Ⅰ. 서론 11.1 연구의 배경 11.2 기업에서의 캠페인 데이터 4Ⅱ. 이론적 배경 62.1 기계학습 62.2 특징선택 72.3 랜덤포레스트 14Ⅲ. SOFS 특징선택 알고리즘 163.1 탐색전략 173.2 SOFS 중요특징 선택 알고리즘 213.3 평가기법 223.4 정지기준 23Ⅳ. SOFS 기반 캠페인 타겟팅 시스템 254.1 SOFS 상세 알고리즘 25Ⅴ. 분석 및 결과 315.1 실험설정 및 환경 315.2 실험 설계 345.3 실험 결과 37Ⅵ. 결론 45