메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

방정욱 (충북대학교, 충북대학교 대학원)

지도교수
권오욱
발행연도
2015
저작권
충북대학교 논문은 저작권에 의해 보호받습니다.

이용수0

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
We propose a new method to determine the recognition units for large vocabulary continuous speech recognition (LVCSR) in Korean by applying unsupervised segmentation and merging. In the proposed method, a text sentence is segmented into morphemes and position information is added to morphemes. Then submorpheme units are obtained by splitting the morpheme units through the maximization of posterior probability terms. The posterior probability terms are computed from the morpheme frequency distribution, the morpheme length distribution, and the morpheme frequency-of-frequency distribution. Finally, the recognition units are obtained by sequentially merging the submorpheme pair with the highest frequency. Computer experiments are conducted using a Korean LVCSR with a 100k word vocabulary and a trigram language model obtained by a 300 million eojeol (word phrase) corpus. The proposed method is shown to reduce the out-of-vocabulary rate to 1.8% and to reduce the syllable error rate relatively by 14.0%.

목차

Ⅰ. 서론 1
1.1 필요성 1
1.2 기존 연구 2
1.3 연구 내용 3
1.4 논문 구성 4
Ⅱ. 기존의 인식 단위 5
2.1 연속 음성인식의 개요 5
2.2 연속 음성인식 시스템의 구조 6
2.3 음성인식 단위의 개요 11
2.4 기존의 단위 생성 방법 13
2.4.1 형태소 분할 방법 13
2.4.2 비교사 분할 방법 15
Ⅲ. 제안된 인식 단위 21
3.1 형태소 분할 22
3.2 부형태소 분할 23
3.2.1 형태소 위치 정보 추가 23
3.2.2 부형태소 분할 23
3.3 부형태소 간 병합 27
Ⅳ. 실험 결과 29
4.1 음성 데이터베이스 29
4.2 한국어 말뭉치 31
4.3 실험 환경 32
4.4 인식단위 실험 결과 33
4.4.1 빈도 및 길이 비용함수 33
4.4.2 부형태소 병합 개수 35
4.5 음성인식 실험 결과 36
4.5.1 기존의 인식 단위 실험 36
4.5.2 제안된 인식 단위 실험 38
4.6 인식 단위 별 성능 요약 및 비교 41
4.7 제안된 단위 성능 평가 44
4.7.1 기존 연구 결과와의 비교 44
4.7.2 구글 음성인식 결과와의 비교 46
4.8 다중발음을 고려한 언어모델 적용 실험 47
Ⅴ. 결론 48
참고문헌 49

최근 본 자료

전체보기

댓글(0)

0