최근 전 세계적으로 21세기 미래사회에 요구되는 주요한 능력으로서 핵심역량(Key Competencies)의 함양과 비인지적 역량 교육의 중요성이 강조되는 추세이다. 특히 우리나라는 ‘인성(character)’을 세계화 시대 경쟁력 제고에 요구되는 역량적 관점에서 이해하고, 국가 차원에서 청소년의 바람직한 인성 함양을 위하여 각별한 관심과 노력을 기울이고 있다. 인성이 학교교육을 통해 달성해야 할 구체적인 교육목표가 됨에 따라 학생 인성을 어떠한 준거에 비추어 평가해야 할 것인지에 관한 연구도 필요하게 되었다. ‘준거설정(standard setting)’은 학생이 알고 있는 것과 할 수 있는 것에 관한 전문가의 판단이 반영되기 때문에, 인성과 같은 비인지적 특성에 관한 평가에도 적용될 수 있다. 다만 검사마다 목적, 내용, 상황이 각기 다르기 때문에 하나의 완벽한 준거설정 방법이라는 것이 정해져 있는 것은 아니며, 청소년의 바람직한 인성에 관한 준거도 아직 개발되지 않은 실정이다. 따라서 본 연구는 세 가지 준거설정 방법(Extended-Angoff 방법, Rasch 방법, The Body of Work 방법)을 적용하여 인성검사에서의 준거설정 방법과 결과를 비교하였다. 각 방법은 모두 검사중심 방법이라는 동일한 범주에 속하면서도 각기 다른 특징의 방법들로써, 세 방법이 하나의 검사에 적용되어 종합적으로 검토된 연구는 본 연구가 처음이다. 본 연구는 각 방법 간 차이를 비교하고, 후속연구에서 준거설정 방법 선택 시 참고할 수 있는 기초자료를 제공하며, 나아가 인성검사에서 성취수준 도달 여부의 판단 근거로 활용할 수 있는 분할점수의 제시 가능성을 검토하고자 하였다. 본 연구에서 설정한 연구문제는 다음과 같다. 첫째, Extended-Angoff 방법, Rasch 방법, The Body of Work 방법에 따른 준거설정 결과(분할점수, 학생 분류 비율, 부정형 문항의 포함 여부)는 어떠한 차이가 있는가? 둘째, Extended-Angoff 방법, Rasch 방법, The Body of Work 방법에 따른 준거설정 결과는 준거설정자의 전문적인 판단없이 규준적으로 학생의 성취수준을 분류한 결과와 어떠한 차이가 있는가? 셋째, Extended-Angoff 방법, Rasch 방법, The Body of Work 방법에 따른 준거설정의 절차적 타당성은 어떠한 차이가 있는가? 본 연구는 연구대상을 중학생으로 한정하고, 현 중학생의 특성을 충분히 이해하고 학생 지도 경험과 식견이 풍부한 현직 중학교 교사 31명을 준거설정자로 구성하였다. 준거설정자 구성 시, 교직경력, 교육학 학위 보유 여부, 담당교과, 학교 소재지 등 교사의 전문성과 기타 특성을 두루 고려하였다. 방법 내 일관성 평가를 위하여 각기 다른 추정방식을 적용한 통계량을 산출하였으며, WINSTEPS(Linacre, 2009), IRT-CLASS(Lee & Kolen, 2006), BB-CLASS(Brennan, 2004) 프로그램을 분석에 이용하였다. 연구문제에 대한 결과는 추정된 분할점수, 학생 분류 결과, 준거설정 평가요소(내적 준거, 외적 준거, 절차적 준거)에 따른 준거설정 방법 평가 결과를 이용하여 제시하였다. 본 연구의 주요 연구결과는 다음과 같다. 첫째, 원 점수 단위에서 직접 비교가 가능한 Extended-Angoff 방법과 BoW 방법 간 분할점수 차이는 4점이고, BoW 방법을 적용할 경우 미성취 집단으로 분류되는 학생이 43명 더 많은 것으로 나타났다. Rasch 방법은 두 방법과 분할점수 단위가 상이하여 직접적인 비교는 불가능하지만, 학생 분류 결과는 BoW 방법과 완벽히 일치하였다. 추후, Rasch 방법에 의한 분할점수와 나머지 두 방법에 의한 분할점수 간 척도변환에 대한 논의도 필요할 것으로 사료된다. 둘째, 본 연구에서 채택한 인성검사는 전체 60문항 중 부정형 문항이 12개 포함되어 있다. Extended-Angoff 방법과 Rasch 방법은 부정형 문항의 포함 여부에 따라 동 방법 내에서도 학생 분류 결과 상 약 40명의 차이가 발생하였고, 부정형 문항이 제외된 경우 미성취 집단으로 분류되는 학생 수가 항상 더 적게 나타났다. 셋째, 준거설정자의 판단이 반영된 세 가지 방법에 따른 준거설정 결과와 준거설정자의 판단을 반영하지 않고 학생을 규준적으로 분류한 결과를 비교하였다. 준거설정자의 전문적 판단이 반영된 Extended-Angoff 방법, Rasch 방법, BoW 방법 간 학생 분류 결과는 방법 간 0명~43명의 차이가 발생하였지만, 준거설정자의 판단을 반영하지 않고 학생을 규준적으로 분류한 방법 간 결과 차이는 857명으로 나타났다. 이를 전체 학생 수에 비교하면, 준거설정자 판단이 반영된 경우는 2% 내외 수준, 그렇지 않은 경우는 55% 내외 수준의 차이에 해당한다. 준거설정자의 판단이 반영되는 경우는 적용된 방법이 각기 다르더라도 결과 간 차이가 비교적 일정한 범위 내에 놓여 있지만, 규준적 분류 방식(Likert 척도의 등간성 가정, 실제 검사자료의 평균값 이용)을 적용할 경우에는 일관된 결과를 얻기 어려운 것으로 나타났다. 넷째, Rasch 방법은 준거설정자가 판단한 숙달수준(mastery level)을 반영해야만 다른 방법들과 높은 일치도를 갖는 결과를 산출하였다. 다섯째, 방법 내 일관성 평가를 위하여 각기 다른 추정방식으로 분류일치도를 추정한 결과, 문항반응이론(Item Responses Theory, IRT)을 적용한 경우의 통계량이 항상 가장 크게 산출되었다. 일치도 지수는 모든 경우 약 .98 이상으로 나타났고, Kappa 계수는 Subkoviak(1976) 방식과 Livingston-Lewis(1995) 방식에 의한 추정치가 대부분 .6 이었던 것에 비해 IRT 방식은 .8 이상의 값이 산출되었다. 여섯째, 각 방법의 타당성을 평가한 결과, 명확성, 실용성 등 대부분의 영역에서 세 방법이 비슷한 수준으로 평가되었다. 다만, 실제 학교현장에서 준거설정 방법을 적용한다면 Rasch 방법을 선택하겠다는 응답이 전체의 약 절반에 해당하는 14명(45.2%)으로 나타났다. 그동안 Rasch 방법에 대한 연구는 다른 준거설정 방법들에 비해 상대적으로 부족하였고, 비교 연구도 주로 Angoff 방법과의 비교에 국한되어 왔다. 그러나 본 연구를 통하여 Rasch 방법이 Angoff 방법 이외의 방법과도 상당히 일치하는 결과를 얻을 수 있고, 준거설정 평가요소에 따른 평가에서도 그 타당성을 확인함으로써 준거설정 방법으로서의 가능성이 경험적으로 재검토되었다. 본 연구는 검사중심 준거설정 방법에 속하는 Extended-Angoff 방법, Rasch 방법, The Body of Work 방법을 중학생용 인성검사 준거설정에 적용해봄으로써 학생의 인성을 두 집단으로 구분할 수 있는 하나의 분할점수를 산출하고, 각 방법과 결과를 비교하였다. 본 연구는 단일 분할점수를 추정하는 초기 단계의 연구이지만 학교교육을 통한 인성역량 함양이 강조되는 추세에 대비하여, 인성평가에서의 준거설정 가능성과 함께 관련 후속연구에서의 준거설정 방법 선택 시 참고할 수 있는 정보를 제공할 수 있을 것으로 기대한다.
The development of key competencies and the importance of non-cognitive competence education are emphasized as required for the future society. Particularly, special attention has been paid to enhancing ‘character education’ in terms of global competitiveness. As the character becomes one of key compentnces, it has been necessary to study how standards should be set to decide the level of character. Since ‘standard setting’ reflects experts’ judgment on what students know and what they must know, it can be applied to the evaluation of non-cognitive characteristics like character. However, each test has a different objective, content and situation, and so there is no single perfect standard setting method. Thus, this study applied three standard setting methods (i.e., Extended-Angoff method, Rasch method and the Body of Work (BoW) method) to compare the methods and results of the standard setting methods in character testing. Each method is a test-centered method, which falls under the same category, but has different characteristics, and it is the first study to comprehensively evaluate the three methods, applied in a single test. This study would compare the differences among the methods and provide basic information, which could be used in selecting a standard setting method in the future studies. Furthermore, this study would examine the possibility to propose a cut-off score, which could be used as a basis to judge whether a student reaches the performance level in character testing. The research questions set up in this study are as follows; First, what are the differences in the standard setting results according to Extended -Angoff method, Rasch method and BoW method (e.g., cut-off score, student classification ratio, and including a negatively-worded item or not)? Second, how are the standard setting results of the Extended-Angoff method, Rasch method and BoW method different from the results of the normative classification of the student’s performance level without a panelists’ professional judgment? Third, what are the differences in the procedural validity of standard setting according to the Extended-Angoff method, Rasch method, and BoW method? For this study, a character test was administered to middle school students and the panelists consisted of 31 middle school teachers, who understood students’ characteristics well and had abundant experience and knowledge in student guidance. Their expertise and other characteristics (e.g. teaching career, educational degree, teaching subject, and location of school) were considered. The students’ responses were classified into to performance levels. WINSTEPS program (Linacre, 2009) was used to estimate item difficulty and ability parameter. SPSS 21.0, EXCEL, IRT-CLASS (Lee & Kolen, 2006) and BB-CLASS (Brennan, 2004) were used to analyze basic statistics, intraparticipant consistency, interaparticipant consistency. Three statistics values were estimated by applying different estimation methods in order to evaluate consistency within the method. The standard setting was evaluated by the estimated cut-off score, student classification results, and standard setting evaluation elements (i.e., internal evidence, external evidence and procedural evidence). The main results of this study are summarized as follows; First, the difference in the cut-off score between Extended-Angoff method and BoW method was 4 points. When BoW method was applied, 43 more students were classified as those at ‘Performance Level 0’ as compared to the Extended-Angoff method. Rasch method could not be directly compared with these t o methods because the unit of the cut-off score was different from the other t o methods. However, the results of student classification were completely identical with those of that by BoW method. It would be necessary to discuss the conversion of the scale between the cut-off score by Rasch method and that by the other t o methods. Second, in the character index instrument selected by this study, 12 negatively-worded items were included out of 60 items. Depending on whether negatively-worded items were included, there was a difference of 40 students in the results of the student classification within Extended-Angoff method and Rasch method. When negatively-worded items were excluded, the number of students classified as those at ‘Performance Level 0’ tended to be fewer. Third, the results of standard setting made by the three methods, which reflect the panelists’ judgment were compared with the results of normative classification of students. When the panelists’ judgment was reflected, there were differences of 0 to 43 students in student classification among Extended-Angoff method, Rasch method and BoW method, while there was a difference of 857 students from the result by the method of normative classification of students. In comparison to the total number of students, there was a difference about 2% when the panelists’ judgment was reflected, while there was that of about 55% when their judgement was not. If the panelists’ judgment was reflected, the difference in the results among the three methods remained relatively constant. Fourth, Rasch method produced consistent results with other methods only when the panelists’ judgement for the level of mastery. Fifth, the consistency index was always higher than .98. Kappa coefficients estimated by Subkoviak method and Livingston-Lewis method were in general 0.6 while those estimated by the IRT method were higher than 0.8. Finally, the three methods showed the similar patterns in the aspects of explicitness and practicability. However, about half of the panelists (14 persons, 45.2%) preferred Rasch method. Consequently, this study could empirically reconsider its possibility as a standard setting method by verifying its validity in the evaluation results according to standard setting valuation elements (i.e., internal evidence, external evidence, and procedural vidence). This study estimated a single cut-off score that could classify tudents’ character broadly into t o groups, applying Extended-Angoff method, Rasch method, and BoW method to the standard setting in character testing.
Ⅰ. 서론 11. 연구의 필요성 및 목적 12. 연구문제 7Ⅱ. 이론적 배경 91. 준거설정 9가. 준거설정 개념 9나. 준거설정 방법 111) 검사중심 방법 13가) Extended-Angoff 방법 14나) Rasch 방법 17다) The Body of Work 방법 212) 피험자중심 방법 243) Extended-Angoff, Rasch, BoW 방법 간 특징 비교 25다. 준거설정 절차 28라. 비인지적 영역의 준거설정 352. 인성과 인성검사 37가. 인성의 개념 37나. 인성검사 43Ⅲ. 연구방법 491. 연구자료 49가. 검사도구 49나. 검사대상 522. 준거설정자 543. 연구절차 56가. 성취수준별 특성 기술 57나. 준거설정자 사전교육 59다. 준거설정 실시 611) Extended-Angoff 방법에 의한 준거설정 622) Rasch 방법에 의한 준거설정 643) The Body of Work 방법에 의한 준거설정 64라. 준거설정 결과 비교 65마. 준거설정 방법 평가 661) 분류일치도 672) 추정방식과 측정모형의 선택 70Ⅳ. 연구결과 721. 준거설정 결과 72가. Extended-Angoff 방법 72나. Rasch 방법 79다. The Body of Work 방법 84라. Extended-Angoff, Rasch, BoW 방법 간 결과 비교 872. 준거설정 방법 평가 90가. 내적 준거에 따른 평가 901) 준거설정자 내 일관성 902) 준거설정자 간 일관성 943) 방법 내 일관성 95나. 외적 준거에 따른 평가 96다. 절차적 준거에 따른 평가 97Ⅴ. 결론 및 논의 1041. 요약 1042. 결론 및 논의 1083. 연구의 제한점 및 제언 113참고문헌 117Abstract 131부 록 135