본 연구는 한국인 대학생들과 원어민 대학생들의 영어 논설문에 나타난 어휘적, 통사적, 담화적 특성을 비교 분석하였다. 한국인 대학생들의 논설문의 특성을 알아보기 위하여 본 연구자가 구축한 자가 코퍼스인 강원대학교 영어 학습자 코퍼스(Kangwon National University English Learner Corpus, KNUELC)에서 대학 1학년 학생들의 논설문 30편을 선정하였고, 상위수준의 원어민 대학생들의 논설문의 특성을 알아보기 위하여 MICUSP(Michigan Corpus of Upper-Level Student Papers)에서 대학 4학년 학생들의 논설문 자료 30편을 선정하였다. 위의 두 코퍼스 MICUSP와 KNUELC를 바탕으로 Coh-Metrix라는 자동 언어분석도구를 통해 논설문에 나타난 표층적 수준의 기초 산출치 외에도 어휘적, 통사적, 담화적 특성들을 나타내는 지표들을 종합적으로 분석하였다. 각 지표들에 대한 한국인 집단과 원어민 집단 간의 독립표본 t-test 분석결과는 다음과 같다. 첫째, 한국인 집단은 원어민 집단에 비해 기초 산출치 중 문장 수, 단어 수가 더 많고, 평균 문장길이도 더 길었다. 둘째, 한국인 집단은 원어민 집단에 비해 어휘적 특성 중 (1) 어휘적 다양성의 하위 지표인 ①내용어 TTR, ②전체 TTR이 더 높았다. (2) 어휘의 품사 정보의 하위 지표인 ①동사 수, ②대명사 수, ③1인칭 단수 대명사 수, ④2인칭 대명사 수를 더 많이 사용하였고, ⑤3인칭 단수 대명사를 더 적게 사용하였다. (3) 어휘의 의미 정보 중 ①단어빈도, ②친숙도, ③구체성, ④심상성, ⑤유의미성, ⑥다의성, ⑦상하의성 :명사는 더 높고, ⑧습득나이, ⑨상하의성: 동사는 더 낮았다. 셋째, 한국인 집단은 원어민 집단에 비해 통사적 특성 중 (1) 통사적 복잡성의 하위 지표인 ①본동사 앞 단어 수, ②명사구 내 수식어 수가 더 낮았다. (2) 통사구조 밀도의 하위 지표인 ①동사구 밀도는 더 높았고, ②전치사구 밀도, ③동명사 밀도는 더 낮았다. 넷째, 한국인 집단은 원어민 집단에 비해 담화적 특성 중 (1) 지시적 응집성의 하위 지표인 ①전체 문장 간 내용어 중복이 더 높고 (2) 의미적 응집성의 하위 지표인 ①전체 문장 간 의미적 유사성이 더 높았으며 (3) 접속사의 하위 지표인 ①부가접속사의 비율이 더 높았다. 다음으로 각 지표들 간의 상관분석 결과는 다음과 같다. 어휘적 특성의 대명사와 통사적 특성의 전치사구 밀도, 어휘적 특성의 어휘적 다양성과 담화적 특성의 지시적 응집성, 의미적 응집성 관련 지표들 간의 관련성이 높았다. 마지막으로 통사적 특성의 전치사구 밀도, 동명사구 밀도와 담화적 특성의 전체 문장 간 내용어 중복, 전체 문장 간 의미적 유사성 간의 관련성이 높았다. 끝으로 기초 산출치 영역에 영향을 미치는 요인들에 대한 다중회귀분석 결과는 다음과 같다. 어휘적, 담화적 특성에 비해 통사적 특성이 기초 산출치에 큰 영향을 미쳤다. 즉, 본동사 앞 단어수가 적을수록, 전치사구 밀도가 높을수록 문장 수가 증가하였고 명사구, 동사구의 밀도가 낮을수록, 그리고 전치사구, 부정사의 밀도가 높을수록 단어 수가 증가하였다. 또한 전치사구, 부정사의 밀도가 증가할수록, 명사구 밀도가 감소할수록 평균 문장 길이가 길었다. 본 연구에서 제시된 한국인 대학생들의 논설문과 원어민 대학생들의 논설문의 어휘·통사·담화적 차이, 각 지표들 간의 관련성 및 기초 산출치에 영향을 미치는 지표들을 고려함으로써 한국인 대학생들이 보다 바람직한 영어 논설문을 쓰는데 도움이 되기를 기대한다. 또한 본 연구결과는 한국인 대학생들을 대상으로 한 논설문 쓰기 교육, 교재 개발 및 평가 등에서 유용한 자료로 활용될 것으로 생각된다.
The purpose of this study was to examine the linguistic and discourse features shown in the corpus of Korean and native university students’ argumentative essays. Two copora, KNUELC (Kangwon National University English Learner Corpus) for Korean students and MICUSP (Michigan Corpus of Upper-Level Student) for native English students were used to analyze the comprehensive features. The analysis was conducted using Coh-Metrix, a computational tool that assesses text on 106 indices of lexical, syntactic, and discourse features as well as descriptive features. The findings showed that the linguistic features in the English argumentative essays by Korean students were different from those by native students. First, Korean students utilized a greater number of words and sentences, and employed a longer sentence length when compared to native students. Second, for lexical features, Korean students scored higher marks with TTR, frequency, familiarity, concreteness, imagability, meaningfulness, polysemy, and hypernymy for nouns, but lower marks with age of acquisition, and hypernymy for verbs, and they further made greater uses of verb, pronoun, 1st person singular pronoun, and 2nd person pronoun, but less uses of 3rd person singular pronoun than native students. Third, for syntactic features, while Korean students showed a higher density with verb phrase, but a lower density with the number of words before main verb, the number of modifiers in noun phrase, preposition phrase, and gerund phrase. Fourth, for discourse feature, Korean students depicted a higher ration of content word arguments within paragraph, the ratio of LSA within paragraph, and more additive conjunctions. Fifth, there is a correlation between pronoun, subcategory of lexical features, and the density of prepositional phrase. A correlation also exists between lexical diversity and referential cohesion and semantic cohesion. Lastly, syntactic features were subject to greater effects on the descriptive indices than lexical or discourse features. In other words, the number of the sentences increased when the number of the words before the main verb was less, while the density of the preposition phrase was high. The number of the words increased when the density of preposition and infinitive phrase was greater than average. The sentence length increased when the density of preposition and infinitive phrase was great, while the density of noun phrase was less. These results hold important pedagogical implication with regard to writing pedagogy. Certainly, the present thesis was limited in scope. Further studies on different scale assessments are indeed needed. Despite the shortcoming, it is to be hoped that this paper will contribute to writing pedagogy for Korean students learning English, especially the composition of argumentative essays. Is is also hoped that the present thesis will serve as a useful platform for the writing pedagogy as well as the development for teaching material and evaluation.
Ⅰ. 서 론 11. 연구의 목적 및 필요성 12. 연구의 의의 33. 연구의 제한점 54. 연구 문제 65. 용어의 정의 7Ⅱ. 문헌 연구 101. 쓰기의 특징 101) 쓰기의 정의 및 쓰기 모형 102) L1과 L2 쓰기의 차이점 132. 텍스트의 유형 151) 텍스트 정의 및 유형 152) 텍스트 유형의 효과 163. 논설문 201) 논설문의 특징 202) 논설문의 중요성 224. 코퍼스 231) 코퍼스의 정의 232) 원어민 코퍼스와 학습자 코퍼스 253) 코퍼스 분석 도구 295. Coh-Metrix 321) Coh-Metrix의 특징 322) Coh-Metrix의 이론적 배경 343) Coh-Metrix 측정치 454) Coh-Metrix 측정 지표 기준 576. Coh-Metrix 관련 선행연구 58Ⅲ. 연구방법 651. 연구 자료 651) 원어민 대학생의 논설문 코퍼스 652) 한국인 대학생의 논설문 코퍼스 673) 연구자료 비교 692. 분석 도구: Coh-Metrix 3.0 703. 연구 절차 734. 자료 분석 방법 74Ⅳ. 연구결과 및 논의 751. 기초산출치 752. 어휘적 특성 791) 어휘적 다양성 792) 어휘의 품사 정보 813) 어휘의 의미 정보 843. 통사적 특성 891) 통사적 복잡성 892) 통사구조 밀도 914. 담화적 특성 931) 지시적 응집성 942) 의미적 응집성 963) 접속사 975. 지표들 간의 상관관계 991) 어휘적 특성과 통사적 특성 992) 어휘적 특성과 담화적 특성 1033) 통사적 특성과 담화적 특성 1076. 기초 산출치와 어휘·통사·담화적 특성의 관련성 1091) 어휘적 특성이 기초 산출치에 미치는 영향 1102) 통사적 특성이 기초 산출치에 미치는 영향 1123) 담화적 특성이 기초 산출치에 미치는 영향 1147. 결과에 대한 논의 1171) 기초 산출치 1172) 어휘적 특성 1173) 통사적 특성 1254) 담화적 특성 1295) 어휘·통사·담화적 특성 지표들 간 상관관계 1336) 어휘·통사·담화적 특성이 기초 산출치에 미치는 영향 139Ⅴ. 결론 및 제언 1441. 요약 1442. 교육적 함의 및 제언 151참고문헌 155부록 176영문초록 182표 목차표 1. 선정된 MICUSP의 주제별 분포 67표 2. KNUELC의 연구 대상 분포 68표 3. KNUELC의 주제별 분포 69표 4. KNUELC와 MICUSP 비교 70표 5. Coh-Metrix 3.0 분석도구 72표 6. 기초 산출치에 대한 집단별 분석 결과 76표 7. 어휘적 다양성에 대한 집단별 분석 결과 79표 8. 어휘의 품사 정보에 대한 집단별 분석 결과 82표 9. 어휘의 의미 정보에 대한 집단별 분석 결과 85표 10. 통사적 복잡성에 대한 집단별 분석 결과 89표 11. 통사구조 밀도에 대한 집단별 분석 결과 92표 12. 지시적 응집성에 대한 집단별 분석 결과 95표 13. 의미적 응집성에 대한 집단별 분석 결과 97표 14. 접속사에 대한 집단별 분석 결과 98표 15. 어휘적 특성과 통사적 특성 간 상관관계 100표 16. 어휘적 특성과 담화적 특성 간 상관관계 104표 17. 통사적 특성과 담화적 특성 간 상관관계 107표 18. 어휘적 특성이 기초 산출치에 미치는 영향 111표 19. 통사적 특성이 기초 산출치에 미치는 영향 113표 20. 담화적 특성이 기초 산출치에 미치는 영향 116그림 목차그림 1. MICUSP 텍스트의 유형별 분포 66