본 연구는 여자 농구 월드컵의 승패결정요인을 추정하기 위하여 Decision Tree, Random Forest, Gradient Boosting Trees, XG Boost 총 4가지 머신러닝 기법을 적용해서 각 기법별의 예측 성능을 비교하며 가장 뛰어난 예측 성능을 나타낸 머신러닝 모형을 기반으로 SHAP 기법을 사용하여 승패 요인 중요도를 분석하는데 목적을 두었다. 본 연구의 대상은 2002년(제14회)부터 2022년(제19회)까지 여자 농구 월드컵 경기대회에 참가한 팀이 겨룬 총 302경기의 경기내용을 대상으로 두 팀의 공식기록을 연구 대상으로 선정하였으며(n=604), 분석에 사용된 변인은 여자농구 월드컵 홈페이지에서 제공된 Box Score 데이터를 사용하여 총 19개 독립변인과 1개 종속변인으로 선정하였다. 본 연구의 자료 수집과 처리를 위하여 통계프로그램 Python 3.10.1 버전을 라이브러리와 함께 사용하였고, 얻은 결과는 다음과 같다. 첫째, 기법별 예측 결과에서는 Random Forest 모델이 Decision Tree, Gradient Boosting Trees, XG Boost 기법보다 가장 뛰어난 예측 성능을 나타냈고 테스트 세트에서 예측 정확도는 82.64%, 정밀도는 0.826, 재현율은 0.826, F1 점수는 0.826으로 나타났다. 둘째, Gradient Boosting Trees와 XG Boost 기법을 이용하여 경기 승패 결과를 예측했을 때, 데이터 세트의 표본 크기가 충분하지 않기 때문에 과적화(Overfitting) 현상이 나타났다. 셋째, 설명가능한 인공지능(eXplainable AI) SHAP 기법을 적용하여 여자 농구 월드컵에서 승패에 정(+)의 영향을 미치는 중요한 요인은 수비 리바운드(DREB), 슛 성공률(FG%), 2점슛 성공수(2PTSM), 2점슛 성공률(2PTS%) 등 순으로 나타났으며, 반면 승패에 영향을 미치는 상대적으로 중요하지 않은 요인은 3점슛 시도수(3PTSA),2점슛 시도수(2PTSA), 3점슛 성공수(3PTSM), 슛 시도수(FGA) 등 순으로 확인되었다.
This study applied a total of four machine learning techniques, Decision Tree, Random Forest, Gradient Boosting Trees, and The purpose was to analyze the importance of win-loss factors using the SHAP technique based on a machine learning model. The subject of this study was a total of 302 games played by teams participating in the Women"s Basketball World Cup from 2002 (14th) to 2022 (19th), and the official records of the two teams were selected as the subject of study. (n=604), and the variables used in the analysis were selected as a total of 19 independent variables and 1 dependent variable using box score data provided on the Women"s Basketball World Cup website. To collect and process data for this study, the statistical program Python 3.10.1 version was used with the library, and the results obtained are as follows. First, in the prediction results by technique, the Random Forest model showed the best prediction performance over Decision Tree, Gradient Boosting Trees, and It appeared. Second, when predicting the outcome of a game using Gradient Boosting Trees and XG Boost techniques, overfitting occurred because the sample size of the data set was insufficient. Third, by applying the explanatory artificial intelligence (eXplainable AI) SHAP technique, the important factors affecting the win and loss in the women"s basketball World Cup were in the order of defensive rebound (DREB), shot success rate (FG%), two-point shot success rate (2PTSM), and two-point shot success rate (2PTS%). On the other hand, the relatively insignificant factors affecting the win and loss were in the order of three-point attempts (3PTSA), two-point attempts (2PTSA), three-point attempts (3PTSM), and shot attempts (FGA).