소비자 구전은 유·무선 인터넷의 발달과 모바일 기기 보급화의 가속화로 그 영향력 또한 급속도로 증가하고 있다. 리뷰를 통해 상품 또는 서비스를 이미 경험했던 소비자의 올바른 온라인 구전 행위는 다른 사용자에게 긍정적인 영향을 주고, 상품이나 서비스의 구매에 긍정적인 영향을 주어, 결과적으로 기업의 매출과 브랜드 이미지 개선에 큰 도움을 주게 된다. 이러한 장점으로 인해 대부분의 기업들은 온라인 구전을 마케팅에 활용하고 있다. 그러나 과도한 마케팅 경쟁은 가짜리뷰와 같은 거짓 온라인 구전을 확산시켰고, 이로 인해 소비자들은 온라인 구전에 대한 피로감과 함께 온라인을 통해 얻게 되는 정보를 불신하는 결과를 초래하고 있다. 이러한 문제점을 개선하기 위해 공정거래위원회는 표시광고법을 근거로 이에 대한 위반 행위를 단속하고 과징금을 부과하고 있다. 이러한 제도적 장치에도 불구하고 여전히 많은 기업들은 전문 온라인 마케팅 대행사 또는 SNS 및 블로그에서 영향력이 있는 인플루언서에게 금전적, 물질적 보상을 주고 가짜리뷰의 작성 및 배포를 의뢰하고 있으며, 이렇게 생산된 가짜리뷰는 소비자의 합리적 구매 결정을 방해하게 된다. 가짜리뷰에 대한 사회적 문제 인식은 가짜리뷰의 내용을 분석하는 연구를 비롯해 구조적 특성을 기반으로 다양한 탐지 연구를 통한 대응 방안을 제시하는 계기가 되었다. 하지만 대량의 비정형 데이터를 분석해야 하는 기술적인 문제와 기계적 스팸등록 프로그램의 발달로 인해 많은 한계에 부딪치고 있는 실정이다. 본 연구는 네이버 블로그 포스트를 대상으로 데이터를 수집하고, 사용자의 무의식에 기반 한 습관적 패턴을 머신러닝 모형을 통해 블로그와 블로그 포스트에서 추출한 변수의 분석으로 찾아내어 향후 가짜리뷰의 예측에 활용하고자 하였다. 또한 광고성 리뷰와 비 광고성 리뷰에서 검출된 단어를 토대로 수작업이 아닌 자동으로 광고성과 비 광고성을 구분한 데이터를 연구에 사용하였다. 연구 결과 광고성 리뷰 예측에 있어 해당 글 작성자의 블로그에 등록된 전체 포스트의 개수와 등록 날짜는 매우 높은 상관관계를 보였으며, 해당 포스트가 속한 분류에 등록된 포스트의 개수, 포스트 본문에 사용된 이미지의 개수, 블로그 전체 메뉴 개수, 포스트 제목 및 본문의 길이, ‘좋아요’의 개수 또한 높은 상관관계를 보였다. 이에 반해 블로거의 성별, 이름, 프로필 사진 등록여부, 포스트에 사용된 해시태그의 개수는 낮은 상관관계를 보였다. 또한 광고성 리뷰를 판단하기 위한 모형에 있어서 랜덤포레스트가 가장 적합한 분석방법으로 확인되었다. 본 연구에서 제시한 모형을 통해 광고성 리뷰로 예측된 경우, 이는 가짜리뷰일 가능성이 매우 높으며 표시광고법의 추천·보증 등에 관한 표시·광고 심사지침을 위반하고 있을 가능성이 높을 수 있다. 작성된 내용에 대한 형태소 분석을 활용하는 대신 글을 작성한 사람의 행동분석을 본 연구에 도입하고, 이를 근거로 블로그와 포스트의 특성 데이터를 수작업이 아닌 자동화된 장치로 수집하여 머신러닝 모형을 통해 광고성 리뷰 여부를 판별할 수 있는 가능성을 확인한 점은 향후 가짜리뷰의 빠른 탐지를 위한 효율성 및 효과성 향상에 긍정적인 영향을 줄 것으로 기대된다.
Due to the development of wired and wireless Internet and acceleration of spread of mobile devices, consumer word-of-mouth has become increasingly influential. Proper word-of-mouth information in the form of reviews provided by consumers who have already used a product or service has positive effects on potential users in deciding to procure the product or service. Proper word-of-mouth information help the company producing it in terms of boosting the sales of it or improving its brand image. Such enormous power of online word-of-mouth stimulates most of companies to use it in their marketing strategies. But, excessive marketing competition spreads false online word-of-mouth like fake reviews, and, as a result, consumers have become tired of online word-of-mouth, and are distrusting online information. To reform such a problem, the Fair Trade Commission cracks down violation of the Law on Marking and Advertising, and imposes fine to violators of the law. Despite such an institutional arrangement, many companies still hire professional online marketing agencies or influencers in SNS and blogs to ask them to write and spread fake reviews by giving monetary and other material compensations. Fake reviews produced in such a way disturb consumer''s rational procurement decisions. The social consciousness on fake reviews has triggered researchers to suggest ways to cope with them by analyzing contents of fake reviews or finding ways to discover them by means of structural characteristics of them. However, such efforts face obstacles because of technical problems that they should analyze a massive amount of unstructured data, and development of programs which allow mechanical spam registration. This research tried to collect data from blog posts in Naver and detect habitual patterns users use unconsciously by variables extracted from blogs and blog posts by a machine learning model, and wanted to use the technique in predicting fake reviews. In addition, this research used the method to distinguish advertizing and non-advertizing contents, based on words found in advertizing and non-advertizing reviews, not by manual works, but by automatic means. Data analysis showed that there was a very high relationship between the number of all the posts registered in the blog of the writer of the related writing and the date when it was registered, and there were also very high relationships among following elements: the number of posts registered in the same category where the related writing belonged to, the number of images used in contents of the post, the number of all the menus of the blog, post title and post length, and the number of clicks of "Like". In contrast, there were low relationships among following elements: gender and name of blogger, whether profile photo of blogger is registered or not, and the number of hashtags used in the post. And, it was found that, as model to detect advertising reviews, Random Forest is the most suitable. If a review is predicted to be an advertising one by the model suggested in this research, it is very likely that it is fake review, and that it violates the guidelines on investigation into markings and advertising regarding recommendation and guarantee in the Law of Marking and Advertising. The fact that, instead of using analysis of morphemes in contents of writings, this research adopts behavior analysis of the writer, and, based on such an approach, collects characteristic data of blogs and blog posts not by manual works, but by automated system, and discerns whether a certain writing is advertising or not is expected to have positive effects on improving efficiency and effectiveness in detecting fake reviews.
목차
<국문초록> ⅴ1. 서론 1가. 연구배경 1나. 연구문제 2다. 연구목적 32. 이론적 배경 및 선행연구 4가. 가짜리뷰 4나. 블로그 및 포스트 7다. 행동분석 9라. 웹 크롤러 10마. 머신러닝 111) 랜덤포레스트 122) 뉴럴 네트워크 133) 서포트 벡터 머신 144) 로지스틱 회귀모형 153. 연구설계 17가. 분석대상 171) 분석대상 선정 172) 예측 변수 선정 17나. 데이터 수집 24다. 광고성 리뷰 판별 27라. 데이터 전처리 31마. 예측 모형 생성 및 선정 324. 예측 모형 평가 및 선택 33가. 예측 모형 성과 검증 지표 33나. 예측 모형의 검정력 평가 345. 연구결과 35가. 광고성 리뷰 예측 35나. 광고성 리뷰 예측에 영향을 미친 변수 평가 36다. 가짜리뷰 탐지 방법 376. 결과 토의 및 시사점 39가. 결과 논의 39나. 한계점과 향후 과제 43참고문헌 45<국문문헌> 45<영문문헌> 48<URL> 49<Abstract> 50