본 연구는 2013년 개발된 한국어 서답형 문항 자동채점 프로그램을 활용하여 2012년 학업성취도 평가의 초ㆍ중ㆍ고 국어, 초ㆍ중 사회/과학의 총 38문항 각 3,010개 답안을 대상으로 교과 간 문항 및 답안 유형의 차이, 교과 간 자동채점 결과의 차이를 분석하였다.
우선, 2009~2012년 학업성취도 평가 서답형 답안의 유형별 비율은 단어ㆍ구 답안이 74.7%로 가장 높았고, 문장 답안이 12%, 다문장 답안이 10.9%, 기타 답안이 2.4%를 차지하였다. 교과별로 살펴보면, 단어ㆍ구 답안(P1~P3)의 경우 사회 교과가 86.5%로 가장 높았으며, 문장 답안(P4~P6)은 국어 교과가 17.0%로 가장 높았다. 기타 답안(그래프, 선긋기 등)의 경우 과학 교과가 6.6%로 상대적으로 비율이 높았으며, 국어, 사회 교과에서는 거의 출제되지 않았다. 즉, 국어 교과에서는 술어형 단어나 구, 문장 형태의 답안을, 사회 교과에서는 내용함축적 개념어 형태의 답안을 요구하는 문항이 자주 출제되었다. 다음으로 자동채점 결과, 단어ㆍ구 수준 서답형 문항의 Kappa계수는 최소 .95 이상으로 채점 신뢰도가 매우 높게 나타났으나, 답안의 길이가 증가하고 복잡해질수록 인간채점과 자동채점 간 일치도가 떨어지는 것으로 나타났다. 채점 비율 측면에서는 국어 문항이 평균 99.73%로 가장 높았으나, 채점 신뢰도 측면에서는 사회 문항이 가장 높은 신뢰도(Kappa계수 평균 1.00)를 보여주었다.
요컨대 국어, 사회, 과학의 교과별 사용 용어 및 용례, 문항 출제 형식은 서로 다른 특징을 보이며, 이는 채점 결과에도 영향을 미쳤다. 이를 볼 때, 교과별로 지식베이스를 구축하고 이와 연계되어 차별화된 자연언어처리 및 개념 분석 기술이 정교화된다면, 현재의 단어ㆍ구 수준 자동채점 프로그램의 채점 정확성 및 효율성을 상당한 정도로 높일 수 있을 것으로 기대된다.
The purpose of this study is to analyze the differences of scoring results and answer types among subjects in the 2012 NAEA(National Assessments of Educational Achievement) using the KASS(Korean Automatic Scoring System) developed in 2013. The subjects are Korean(17 items), Social Studies(13 items), Science(8 items) and the numbers of answer are 3,010 of each subject. First, in supply-type items of 2009~2012 NAEA, the rates of answer types are composed of short-answer 74.7%, a sentence 12%, multi-sentence 10.9%, and the others 2.4%. Considering each subject, the social studies showed the highest rate(86.5%) in case of short-answer(P1~P3) while the Korean revealed the highest rate(17%) in case of sentence-level answers(P4~P6) compared to the other subjects. That is to say, questions asking predicate words, phrase and sentence-level answers have mostly been on the Korean test. However, questions asking content-focused concept words have been on the social studies test. Second, the result of scoring indicate that Kappa coefficients of short-answer items were high above .95, but the longer and more complicated length of answers was, the less correlation coefficient between human scorer and KASS was. Moreover, the Korean showed the highest rate(99.73% on average) in terms of scoring rates, but the social studies showed the highest value(Kappa coefficient 1.00 on average) in terms of scoring reliability.
To sum up, terminology and its usage as well as questions forms of each subject have different features, which finally affects the scoring results. Therefore, if knowledge-based system according to each subject was constructed and differentiated natural language processing technology was sophisticated, accuracy and efficiency of the automatic scoring program could considerably improve.