메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이강 (인하대학교, 인하대학교 대학원)

지도교수
이상민
발행연도
2017
저작권
인하대학교 논문은 저작권에 의해 보호받습니다.

이용수6

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
원거리 의사소통의 발전과 함께 오랜 연구가 진행되었던 음성 검출 (voice activity detection, VAD)분야는 하드웨어의 발전과 새로운 알고리즘의 도입, 여러 응용분야의 개발로 여전히 산업 곳곳에서 많은 수요가 존재한다. 높은 성능의 음성 검출기의 도입은 한정된 주파수 밴드를 효율적으로 사용할 수 있으며, 더 깨끗한 음성을 제공하고 높은 성능의 음성 인식을 가능하게 한다.
본 논문에서는 향상된 연산 능력을 가진 하드웨어와 알고리즘의 혼합을 통하여 음성 향상을 위한 정확한 음성 검출기 구현을 목적으로 하였다. 음성은 음소의 나열로 구성되어있으며 음성 모델을 세우는데 적합한 방법은 이전의 정보를 이용하는 순환 신경망 (recurrent neural network, RNN)을 사용하는 것이다. 순환 신경망을 이용하여 프레임 별 높은 상관성을 가진 음성신호에서 좋은 성능을 얻을 수 있었으며 판별 모델의 단점을 생성 모델의 한 종류인 가우시안 혼합 모델 (Gaussian mixture model, GMM)을 이용하여 보완하였다. 또한 실제 존재하는 모든 잡음에 대하여 학습한 모델을 제시하는 것은 사실 상 불가능하므로 이를 극복하고자 음소기반의 학습을 진행하였다. 학습은 순환 신경망과 가우시안 혼합 모델에서 진행하였으며 순환 신경망은 음소 라벨 데이터와 MFCC (mel-frequency cepstral coefficient) 특징 벡터를 이용하였고 가우시안 혼합 모델은 음소 라벨 데이터와 잡음의 로그 스펙트럴 벡터 (log spectral vector)를 이용하였다. 학습의 결과로 세워진 모델을 기반으로 새로운 음성신호에서 음성을 검출하고 그 결과를 이용하여 MMSE (minimum mean-square error) 기반의 음성 향상을 진행하였다. 음성 검출기의 성능을 검증하기 위하여 다양한 특성을 갖는 잡음 환경에서 신호 대 잡음비 (signal to noise ratio, SNR)가 다른 오염된 음성신호를 가지고 객관적 음질 평가 방법인 PESQ (perceptual evaluation of speech quality)를 진행하였다. 다양한 잡음 환경에서 제안한 음성 검출기가 기존의 음성 향상 방법에 비하여 평균 20.6% 향상된 성능을 나타냈다. 제안한 음성 검출기는 가깝게는 서버 기반의 음성 인식 분야에서 적용 가능할 것으로 기대되며 나아가는 원거리 통신, 보청기 등 실시간 음성 향상이 필요한 분야에 적용 가능할 것이다.

목차

그림 목차 ⅱ
표 목차 ⅲ
요약 ⅳ
ABSTRACT ⅴ
제 1장. 서 론 1
제 2장. 음성 검출기 4
2.1. 음성 검출기 4
2.2. 통계 모델 기반의 음성 검출기 5
2.3. 기계학습 모델 기반의 음성 검출기 8
2.3.1. HMM을 이용한 음성 검출기 8
2.3.2. SVM을 이용한 음성 검출기 9
2.4. 표준 음성 코덱의 음성 검출기 10
2.5. 음성 검출기를 이용한 음성 향상 12
제 3장. 음소기반의 GMM과 RNN 혼합 음성 검출기 14
3.1. 기계학습 이론 14
3.1.1. 기계학습 모델 14
3.2. 음소기반 GMM을 이용한 생성모델 음성 검출기 15
3.3. 음소기반 RNN을 이용한 판별모델 음성 검출기 18
3.4. 음소기반 GMM과 RNN 혼합 음성 검출기 20
3.4.1. Maximization approximation 20
3.4.2. 오염된 음성 모델 21
3.4.3. MMSE와 Soft mask를 이용한 깨끗한 음성 추정 22
3.4.4. GMM과 RNN 혼합 음성 검출기 학습 25
제 4장. 실험 및 결과 31
제 5장. 결론 36
참고문헌 38

최근 본 자료

전체보기

댓글(0)

0