2022년 현재 국내 중고차 시장은 지속적으로 성장하고 있으며, 중고차 시장에서 온라인 중고차 플랫폼의 점유율은 50%에 가까워지고 있다. 온라인 중고차 플랫폼은 차량 제원에 그치지 않고 차량의 세부 옵션까지 공개함으로써 소비자들이 해당 차량의 정보를 손쉽게 확인할 수 있도록 하였다. 중고차 가격 예측의 기존 연구는 차량 제원을 활용한 연구가 대부분이었으며, 차량의 주행거리 및 사용기간과 중고차 가격 간 관계가 비선형의 모습으로 나타나는 경향이 존재하였다. 최근의 연구는 비선형관계를 해결하기 위해 다양한 머신러닝 모델을 활용하여 머신러닝 모델별 비용함수(Cost Function)를 비교하는 경우가 많았으며, 대부분의 연구 결과에서 분류형 머신러닝 모델인 랜덤 포레스트(Random Forest; RF) 모델의 우수성을 증명한 경우가 많았다. 변수와 결과값 간 비선형관계에서 분류형 머신러닝 모델은 결과값의 예측 오차율(MAPE)이 회귀형 머신러닝 모델에 비해 상대적으로 우수하나, 분류형 머신러닝 모델 간 변수의 영향력이 다르게 나타남과 동시에 영향력의 방향성을 알 수 없다는 단점이 존재했다. 반면 회귀형 머신러닝 모델은 변수의 영향력과 방향성 확인에 적합하나 변수와 결과값 간 비선형관계일 경우 결과값의 예측 오차율이 분류형 머신러닝 모델에 비해 상대적으로 떨어지는 단점이 존재했다. 이에 따라 본 연구는 회귀형과 분류형 머신러닝 모델을 차례대로 활용하여, 두 유형의 머신러닝 모델의 장점을 취합하고자 하였다. 본 연구는 중고차 온라인 플랫폼에서 크롤링(Crawling)과 스크래핑(Scraping)을 통해 차량 제원과 차량 옵션 자료를 수집하였고, 차량 제원의 일부 변수는 차량 제조사의 공식 카탈로그(Catalogue)를 활용하였다. 확보된 자료를 통해 라쏘(Lasso) 회귀형 머신러닝 모델을 활용하여 중고차 가격에 영향을 미치는 변수들의 영향력과 방향성을 확인하고, 영향력이 0인 변수들을 도출하였다. 다음으로 전체 변수를 활용한 분류형 머신러닝 모델과 영향력이 0인 변수를 제거한 분류형 머신러닝 모델 간 비용함수 수치를 비교하였다. 연구 결과 회귀형 머신러닝 모델을 통해 개별 브랜드와 전체자료에 대해 중고차 가격에 영향을 미치는 차량 제원 변수와 차량 옵션 변수를 확인하였다. 또한 전체 변수를 활용한 분류형 머신러닝 모델과 영향력이 0인 변수를 제거한 분류형 머신러닝 모델 간 비교를 통해 비용함수 수치의 큰 차이가 존재하지 않았다는 것을 확인하였다. 본 연구의 시사점은 다음과 같다. 첫째, 두 유형의 머신러닝 모델을 연속적으로 실행하여, 이들의 장점을 최대한 활용할 수 있는 발판을 마련했다고 판단된다. 둘째, 일부 브랜드와 전체자료에 대한 머신러닝 모델 간 비교를 통해 LGBR(Light Gradient Boosting Regression) 모델의 우수성을 확인하였다. 셋째, 개별 브랜드와 전체자료에서 차량 제원 변수와 차량 옵션 변수 중 어떤 세부 변수가 중고차 가격 예측에 영향을 미치는지, 이들 변수 간 영향력과 방향성을 확인하였다. 이를 통해 중고차 매매관계자들 간 정보의 불공평으로 인한 문제를 해결할 수 있는 하나의 방안이 될 것이라 사료 된다. 본 연구의 한계점은 다음과 같다. 우선 중고차 가격은 특성상 외부 요인에 따른 변동성이 존재한다. 이러한 중고차 가격의 변동성에 대응하기 위해서는 새로운 외부 요인(거시적 지표)을 추가하여 자료를 지속적으로 업데이트할 필요성이 있다. 다음으로 중고차 매매에서 가장 큰 문제는 정보의 불공평성으로 인해 중고차 매매자 간 신뢰수준이 낮은 것이다. 만약 차량 정보의 투명성이 확보되어 차량의 정비 및 사고 내역을 연구에 활용한다면 더욱 예측 정확도가 높은 머신러닝 모델의 구성이 가능할 것으로 예상된다. 마지막으로 본 연구는 중고차 가격을 예측하기 위해 하이퍼 파라미터 튜닝(Hyper Parameter Tuning)에 소모되는 시간을 고려하여 CRT(Classification Regression Tree), RFR, 그리고 LGBR 모델을 활용하였다. 그러나 추후 GBR(Gradient Boosting Regression) 모델과 XGBR(eXtra Gradient Boosting Regression) 모델을 추가하여 분류형 머신러닝 모델 간의 비교가 필요하다고 판단된다.
As of 2022, the domestic used car market is continuously growing, and the share of online used car platforms in the used car market is approaching 50%. The online used car platform discloses the vehicle''s model year, mileage, and various detailed options of the vehicle. Accordingly, consumers may easily check the information of the corresponding vehicle. Most of the existing studies on used car price prediction have been studies using vehicle specifications. There was a tendency to appear in a nonlinear shape between the vehicle''s mileage and use period and the price of used cars. In order to solve this problem, a recent study predicted used car prices using a machine learning model and compared the cost function for each machine learning model. Most of the findings have often demonstrated the superiority of the Random Forest (RF) model. However, classified machine learning models sometimes have different influences between dependent variables on the model, and the direction of their influence is also unknown. In addition, the MAPE(Mean Absolute Percent Error) was often relatively superior to the regression machine learning model. The regression machine learning model is suitable for checking the influence and direction between variables, but the predictive error rate of the result value was often relatively lower than that of the classified machine learning model.Accordingly, this study attempted to secure the advantages of these two types of machine learning models by executing a regression machine learning model and a classification machine learning model together. This study collected the basic specifications and detailed option data of the vehicle using crawling and scraping on the online platform of used cars. Through the secured data, the direction and influence of variables that affect used car prices are checked using the Lasso regression machine learning model, and variables with zero influence in predicting the result value are derived. Next, the cost function figures of the classified machine learning model using all variables and the classified machine learning model removing variables with zero influence were compared using classified machine learning models. This study identified vehicle parameters and option variables that affect the price of used cars by brand/total data. And as a result of research on classified machine learning models, there was no significant difference in cost function in comparison between classified machine learning models using all variables and classified machine learning models excluding variables with zero influence. Through the results of this study, the advantages of the two types of machine learning models were maximized by continuously executing the two types of machine learning models. In addition, the excellence of the LGBR(Light Gradient Boosting Regression) model was confirmed through comparison between machine learning models for all data. Finally, it was confirmed which detailed variable of the vehicle''s specification variable and the vehicle''s option variable had a significant effect on the price of used cars. In addition, the magnitude and direction of influence between these variables were confirmed. Through this, it is believed that it will be one way to solve the problem caused by information inequality among used car sales officials. The limitations of this study are as follows. First, the price of used cars has variability according to external factors due to their characteristics. In order to cope with the volatility of used car prices, it is necessary to continuously update the data by adding new external factors. Second, the biggest problem with used car sales is the low level of trust between sellers due to information inequality. If transparency in vehicle information is secured and the vehicle maintenance and accident details are used for analysis, it is expected that a more accurate model configuration will be possible. This study used some of the classified machine learning models to predict used car prices. The time-consuming Classification and Regression Tree(CRT), RFR, and LGBR machine learning models for Hyper Parameter Tuning were utilized. However, there is a need to add Gradient Boosting Regression(GBR) and eXtra Gradient Boosting Regression(XGBR) machine learning models to compare them between classified machine learning models.
1장. 서론 11. 연구의 배경 및 목적 12. 연구방법 및 구성 42장 선행 연구 및 이론적 배경 51. 중고차 시장 51) 중고차 시장의 현황 52) 중고차 가격에 관한 연구 72. 머신러닝 91) 머신러닝의 정의와 종류 92) 머신러닝 모델을 활용한 중고차 가격 예측에 관한 연구 113장. 자료 수집과 변수설정 161. 자료 수집 162. 변수의 조작적 정의와 측정 방법 211) 차량 제원 222) 차량 옵션 243. 표본 특성 254장. 연구 모형 281. 머신러닝(Machine Learning) 321) 머신러닝의 종류 322) 라쏘(Lasso) 회귀 모델 333) CRT(Classification and Regression Tree) 모델 342. 머신러닝 모델별 최적 모델의 실행 과정 371) 과대적합과 과소적합(Overfitting & Underfitting) 372) K-Fold 교차검증(K-Fold Cross Validation) 383) 머신러닝의 하이퍼 파라미터 튜닝(Hyper Parameter Tuning) 393. 비용함수(Cost Function)와 R^2 411) MSE(Mean Squared Error) 412) RMSE(Root Mean Squared Error) 413) MAE(Mean Absolute Error) 424) MAPE(Mean Absolute Percentage Error) 425) R^2 435장. 연구 결과 441. 브랜드별 머신러닝 모델 간 비교 441) 기아 452) 르노 543) 쉐보레 634) 쌍용 725) 제네시스 816) 현대 902. 전체자료의 머신러닝 모델 간 비교 991) 전체자료 992) 브랜드별과 전체자료의 최우수 분류형 머신러닝 모델 결과 1106장 결론 1121. 연구 결과의 요약 1122. 연구의 의의 1163. 연구의 한계점 117참고문헌 119영문초록 123