교육학에서 대부분의 표준화 검사들은 하나 이상의 문항이 동일한 자료를 공유하는 형태의 단위검사로 구성된다. 하지만 이러한 검사의 문항들은 상호 의존성을 지니기 때문에 자료의 구조를 고려하지 않은 채 신뢰도를 추정할 경우 과대 또는 과소 추정된 결과를 산출할 위험이 있고, 잘못된 신뢰도의 사용은 검사점수 해석과 사용의 오류로 이어질 수 있다. 이에 본 연구에서는 문항반응이론의 접근을 중심으로 단위검사 구성 검사점수의 신뢰도를 추정하는 방법에 대하여 탐구하였다. 본 연구에서는 문항반응이론 모형을 적용하여 단위검사 구성 검사점수의 신뢰도를 추정할 때, 단위검사의 측정 구조에 접근하는 방법에 따라 어떠한 차이가 있는지, 그리고 그 차이가 단위검사의 특성 변수에 따라 어떻게 변화하는지 밝히고자 하였다. 또한 문항반응이론과 일반화가능도이론을 적용하여 추정한 신뢰도를 비교·분석함으로써 두 측정 이론의 신뢰도 간 차이에 대해 고찰하고자 하였다. 이를 위해 구체적으로 설정한 연구 문제는 다음과 같다. 첫째, 단위검사에 대해 서로 다른 가정을 갖는 세 가지 문항반응이론 모형(일차원 이분문항반응이론 모형, 일차원 다분문항반응이론 모형, bifactor 다차원 문항반응이론 모형)을 적용하였을 때, 추정된 신뢰도는 단위검사의 두 가지 특성(단위검사 효과의 크기, 단위검사의 불균형 수준)에 따라 어떠한 차이를 보이는가? 둘째, 단위검사에 대해 서로 다른 가정을 갖는 세 가지 문항반응이론 모형을 적용하였을 때, 추정된 신뢰도는 단위검사의 두 가지 특성에 따라 각각 어느 정도의 오차를 보이는가? 셋째, 단위검사에 대해 서로 다른 가정을 갖는 세 가지 문항반응이론 모형을 적용하였을 때, 추정된 신뢰도는 일반화가능도이론을 적용하여 추정한 신뢰도를 기준으로 어떠한 차이를 보이는가? 이상의 연구 문제에 응답하기 위하여 bifactor 모형을 통해 모의 자료를 연구 조건별로 반복 생성하였고, 이분문항반응이론 모형(2모수 로지스틱 모형), 다분문항반응이론 모형(등급반응모형), bifactor 모형을 적용하여 신뢰도를 추정한 뒤, 그 값을 단위검사의 특성에 따라 비교하였다. 또한 준거 신뢰도(true reliability)를 기준으로 산출한 모형별 신뢰도 추정치의 평균 절대 오차(mean absolute error)를 단위검사의 특성에 따라 비교하였다. 마지막으로 세 모형을 적용하여 추정한 신뢰도를 단위검사의 특성에 따라 산출한 일반화가능도계수와 비교·분석하였다. 본 연구의 결과를 요약하면 다음과 같다. 첫째, 신뢰도 추정치가 이분문항반응이론 모형, bifactor 모형, 다분문항반응이론 모형의 순으로 크게 나타났고 이분문항반응이론 모형과 나머지 두 모형의 신뢰도 추정치 간 차이는 단위검사 효과의 크기가 커짐에 따라 커졌다. 단위검사의 불균형 수준은 신뢰도 추정치에 영향을 미치지 않았다. 둘째, 신뢰도 추정치의 오차는 bifactor 모형, 다분문항반응이론 모형, 이분문항반응이론 모형 순으로 작게 나타났다. 그중 이분문항반응이론 모형의 오차는 단위검사 효과의 크기가 커질수록 커졌고 단위검사의 불균형 수준이 심해질수록 조금씩 커졌다. 마지막으로 세 모형의 신뢰도 추정치와 일반화가능도이론의 신뢰도를 비교한 결과, 다분문항반응이론 모형이 일반화가능도계수와 가장 근접한 값을 보였고 bifactor 모형이 일반화가능도계수보다 약 0.01정도 더 큰 값을 보였다. 이를 바탕으로 다음과 같은 결론을 도출하였다. 첫째, 이분문항반응이론 모형과 다분문항반응이론 모형이 단위검사 구성 검사점수의 신뢰도를 과대·과소 추정하고, bifactor 모형이 가장 정확하게 추정한다. 하지만 다분문항반응이론 모형을 사용하여도, 신뢰도 과소 추정의 정도가 작기 때문에 단위검사 구성 검사점수의 신뢰도를 비교적 정확하게 추정할 수 있다. 둘째, 단위검사의 효과가 클수록 이분문항반응이론 모형을 적용하여 검사점수의 신뢰도를 추정하는 것에 유의해야 한다. 한편 단위검사의 불균형 수준은 신뢰도 추정 방법을 결정할 때 단위검사 효과의 크기만큼 중요하게 고려하지 않아도 된다. 셋째, 문항반응이론이 일반화가능도이론보다 높은 신뢰도 추정치를 산출하는 것으로 나타났으며, 이는 두 측정 이론이 사용하는 정보의 양과 동형검사에 대한 가정이 서로 다르기 때문이라고 볼 수 있다.
Most standardized tests in education or psychology are composed of item bundles called testlets. A testlet is often used not only because it is useful when measuring problem-solving or integrated skills but also time and cost efficient in test construction. This study aimed to investigate the item response theory (IRT) approaches to estimating the reliability of testlet composed test scores by applying three IRT models: the two parameter logistic (2PL) model, the graded response model (GRM), and the bifactor model. As previous studies have found that the testlet effect size and the degree of imbalance in testlet lengths may influence the estimation of reliability, their effects on the reliability estimates and corresponding errors derived from each of the three IRT models were also examined. Moreover, the reliabilities estimated using the three IRT models were compared with the ones estimated via the generalizability theory approach. Using simulated data, the reliability estimates and corresponding mean absolute errors (MAEs) were obtained from the three IRT models. Then respective estimates and errors from each IRT model were compared along the conditions of five different testlet effect sizes and three varying degrees of imbalance in testlet lengths. Furthermore, the reliabilities estimated using the three IRT models and the estimated generalizability coefficients were compared in each condition. The results of the study were as follows. Comparing the reliability estimates and corresponding MAEs derived from the three IRT models, the 2PL model overestimated while the GRM underestimated the reliability of testlet composed test scores. However, the magnitudes of underestimation in the GRM were very small; it produced almost the same MAEs as the bifactor model. Hence, though the bifactor model appeared to be the most appropriate IRT model to be applied when estimating the reliability of testlet composed test scores, the GRM can also be used as a quite appropriate model. Regarding the effects of the testlet effect size and the degree of imbalance in testlet lengths on estimating the reliability of testlet composed test scores, the results showed that as the testlet effect increased, the MAEs of the reliability estimates from the GRM and the bifactor model did not change while the ones from the 2PL model increased. This could be interpreted as the increase of dependencies between items causing a severe violation of the local independence assumption in IRT, and it consequently increasing the magnitude of overestimation in the 2PL model. Therefore, researchers should take heed of using the 2PL model for estimating the reliability of testlet composed test scores, especially when the testlet effects are large. The degree of imbalance in testlet lengths also influenced the MAEs of reliability estimates derived from the 2PL model, but the effects were relatively small. This implied that the degree of imbalance in testlet lengths is not as important as the testlet effect size when estimating the reliability of testlet composed test scores using IRT models. Lastly, comparison of the reliabilities estimated from the IRT models to the generalizability coefficients revealed that the GRM produced the closest estimates to the generalizability coefficients while the estimates from the bifactor model were about 0.001 higher than the generalizability coefficients. This indicated that the IRT approach produces slightly higher reliability estimates compared to the generalizability approach, presumably due to the differences between the two theories such as their different parallelism assumptions on a test.