본 연구는 MBTI에 관심을 지닌 연구자들 및 MBTI 사용자들을 위하여 이들 두 채점체계의 특징을 비교·소개하고자 하는 목적으로 수행되었다. MBTI Form M은 두 가지 채점 방식을 가지고 있다. 즉 문항반응이론(IRT)에 기반한 컴퓨터 채점과 단일 배점 방식에 기반한 자가채점 방식이다. 구체적 연구내용으로 첫째, 자가채점 방식의 일반적 특징과 선호문자 산출 과정을 기술하고 해당 방식으로 산출한 문항의 양호도와 검사의 신뢰도를 확인하였다. 둘째, 컴퓨터채점 방식의 일반적 특징과 선호문자 산출 과정을 기술하고 해당 방식으로 산출한 문항의 양호도와 검사의 신뢰도를 확인하였다. 특히 MBTI 사용자 및 연구자에게 생소할 수 있는 문항반응이론을 컴퓨터채점 방식에 적용하고 해석하는 방법을 자세히 기술하였다. 셋째, 두 채점체계로 산출한 선호문자의 일치율을 계산하여 지표별 선호를 구분하는 가장 정확한 중간점을 기술하였다. 이와 같은 연구를 위하여 2012년부터 2020년까지 어세스타에 누적된 자료 중 대한민국 인구 분포와 맞게 비례층화 방식으로 표집한 19,070명을 분석에 사용하였다. 주요연구 결과는 다음과 같다. 첫째, 문항의 양호도를 나타내는 자가채점 방식의 선호문자 예언율이 E, I, S, T, J 문자에서 Form G와 비교해 개선된 것으로 나타났으며, 4개 지표의 문항내적합치도 또한 .90 수준으로 나타났다. 둘째, 문항반응이론으로 산출한 3모수를 통해 문항의 양호도를 확인한 결과 변별도 기준으로는 E-I 지표가, 난이도 기준으로는 E-I, S-N 지표가, 추측도 기준으로는 E-I, T-F 지표가 매우 좋은 수준으로 나타났다. 추가로 문항반응이론에서 신뢰도를 의미하는 검사정보함수를 그래프로 산출한 결과 선호도 추정치인 세타(θ)의 중간점 부근에서 가장 많은 정보를 포함하여 선호도가 뚜렷하지 않은 사람들의 유형을 정확히 분류해주는 것으로 나타났다. 셋째, 자가채점과 컴퓨터채점의 선호문자를 비교한 선호지표별 일치율은 96.3%~98.1%로 나타났으며, 자가채점 지표별 문항의 절반을 기준으로 선호지표를 결정할 때 일치율이 가장 높았다. 마지막으로 두 채점절차의 차이로 인해 발생하는 선호문자의 불일치는 대부분 중간범위에서 발생되는 것을 확인하였다. 끝으로 본 연구의 의의와 후속연구 제언을 구분하여 논의하였다.
There are two scoring methods in MBTI Form M. One is Item Response Theory (IRT)-based computer scoring method, and the other one is unit-weight based self-scoring method. This study introduces and compares the unique characteristics of those two different scoring methods and summarizes the findings for MBTI users and researchers. In this study, there are three main contributions. First, authors addressed the aspects of self-scoring method and the process of obtaining preference types, and then examined the quality of items. Additionally, the overall reliability of assessment was described. Second, the characteristics of computer scoring method and the process of obtaining preference type were discussed, and the item’s quality and reliability of the assessment were examined. In particular, authors elaborated the details of IRT application to MBTI scoring for audiences, including MBTI users and researchers. Lastly, the preference types’ concordance rate from the two scoring methods was calculated to see the most accurate middle point, which identifies the preference indicator. In total, 19,070 samples were used in this study. The samples were collected from Assesta’s server that contained archived data from 2012 to 2020, and proportional stratified sampling method was used to obtain the final samples. There are three main findings in this study. First, the predictive rate was advanced from E, I, S, T, and J indicators. The predictive rate of preference type (self-scoring method) is an indicator of item’s quality, which was improved in comparison with the same rate from Form G. Additionally, internal consistency of four indicators were found to be .90 or above. Second, each item’s quality was examined by using three parameters from IRT model. Specifically, in terms of the good item indices, item discrimination index was good in E-I indicator, item difficulty index was good in E-I and S-N indicators, and item guessing index was good in E-I and T-F indicators. In addition, test information function, which is the indicator of reliability in IRT, was computed with a graph. The result showed that the majority of information was found near the middle point of theta (θ; preference estimate), which helps in identifying people who do not have a clear preference. Third, the preference type’s concordance rate was 96.3~98.1%, which was compared with the preference results from the computer and self-scoring methods, and the concordance rate was highest when people decided their preference types in the middle of self-scoring items. Lastly, the inconsistencies of preference types due to the differences of two scoring methods was mostly found in the middle range. At the end, the implications of this study and the future research directions were discussed.