메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
저널정보
프랑스문화예술학회 프랑스어권 문화예술연구 프랑스문화예술연구 제12집
발행연도
2004.10
수록면
103 - 131 (29page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
한국어의 음성 합성을 위해서는 여러 단계의 처리가 필요하나 우선 숫자, 기호, 이니셜, 외국어, 수식 등이 포함된 문서를 한국어 음성 생성 규칙이나 휴리스틱스 등이 적용될 수 있는 문자로 전사하는 전처리 작업이 필요하다.
한국어에서는 아라비안 숫자를 읽을 때 ‘하나, 둘, 셋’과 같이 고유어를 사용하기도 하고, ‘일, 이, 삼’처럼 한자어로 읽기도 한다. ‘2457’과 같은 숫자를 한자어로 읽을 때, 문맥에 따라 한편으로는 단위어를 추가하여 ‘이천사백 오십칠’로 읽는가 하면, 다른 한편으로는 단위어 없이 ‘이사오칠’과 같이 읽기도 한다. 또한, 서구 문화의 영향으로 숫자도 영어와 같은 외래어로 읽는 경우도 발생한다. 특히 신조어나 외래어가 신속하게 발생하고 소멸되는 현대 한국어에서 숫자를 읽는 방식이 매우 다양하며 중의성이 높으나, 이에 대한 연구는 거의 이루어지지 않았다.
이에, 본 연구에서는 정제된 언어를 사용하지만 현대 한국어의 변화상을 살펴볼 수 있는 신문 자료를 대상으로, 음성 합성의 전처리 단계로 아라비안 숫자를 포함한 수사 표현의 구성요소 및 문맥간의 연어관계를 살펴봄으로써 자동 전사 규칙을 설정하고자 한다.
본 연구에서 사용하는 대상 말뭉치로는 C 신문의 156일치 15개면 기사전부에서 추후 평가용 데이터로 사용하게 될 31일치 자료를 제외한 125일치 자료이며, 특히 숫자를 포함하고 있는 수사표현을 주로 연구대상으로 분석하였다.
본 논문에서는 아라비안 숫자 읽기를 20가지 방식으로 분류하고, 아라비안 숫자를 포함한 수사표현의 구조를 ① 숫자 전치어, ② 기호를 포함한 숫자열의 표현 형식과 크기, ③ 단위어 표현, ④ 숫자 후치어, ⑤ 분류사, ⑥ 분류사 후치어, ⑦ 수사표현 앞뒤 문맥으로 분석하였다. 이들 구성요소 간의 결합 관계에 따라 13개의 패턴화된 결합구조, 16개의 일반화된 읽기 규칙, 중의성 해결을 위한 85개의 결합관계를 추출하였다. 평가용 말뭉치를 이용하여 본 연구 결과를 측정한 결과 95.4%의 정확도를 얻을 수 있었다.
본 연구의 결과는 그럼에도 몇 가지 극복해야 할 한계점을 드러내었다. 첫째, 다중 결과값의 비율을 낮추어야 하는데, 이 경우 통계 기반 결과를 적용하는 방법을 검토하고 있다. 둘째, 분석용 말뭉치와 평가용 말뭉치가 동시기의 자료체라는 점으로 미루어볼 때, 다른 자료체를 대상으로 하면 미등록어의 비율이 상대적으로 높게 나타날 것이다. 셋째, 현재는 수사표현의 좌우 문맥을 3개 어절 이내로 제한하고 있다. 따라서 연어 관계를 갖는 결합구조의 개수가 비교적 적다. 시스템의 처리 속도와 효율성을 고려하여 수사표현 좌우 문맥의 크기를 재조정해 보아야 한다. 이것은 앞으로 본 연구가 계속 확장해야 과제 범위를 제시하고 있다.

목차

1. Introduction
2. Recherches preexistantes
3. Constituants des expressions numerales
4. Regles de lecture des chiffres arabes utilisant les informations de collocation
5. Experimentation et Evaluation
6. Conclusion
References
〈국문 요약〉

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-ECN-0101-2009-600-014688149