메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김정희 (고려대학교, 고려대학교 대학원)

지도교수
강필성
발행연도
2022
저작권
고려대학교 논문은 저작권에 의해 보호받습니다.

이용수7

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
Wav2vec 2.0은 자동 음성 인식 성능을 효과적으로 향상시킨 종단간 자기 지도 학습 프레임워크이다. 그러나 Wav2vec 2.0과 관련된 실험은 영어 데이터만을 활용하여 수행되었기 때문에 한글과 같이 독특한 언어체계를 갖고 있는 한국어 음성 인식에도 효과적일 수 있는지는 검증되지 않았다. 따라서 본 논문은 Wav2vec 2.0을 한국어에 효과적으로 적용하기 위하여 한국어의 언어적 특징을 탐색하고 최적화한 K-wav2vec 2.0을 제안한다. 미세 조정 단계에서는 한국어의 독특한 쓰기 구조를 반영하기 위해 자소와 음절 출력이 가능한 다중 작업 계층 아키텍처를 제안한다. 또한, 추론 단계에서 학습하지 않은 음절 문제를 완화하기 위하여 음절과 자소를 함께 활용하는 조합 디코더를 적용한다. 자원이 제한된 환경에서 모델의 성능을 향상시키기 위하여 사전 학습 단계에서는 영어 모델을 한국어로 추가 사전 학습하는 방법을 통해 언어 간 전이 학습을 적용한다. Ksponspeech(대규모 한국어 음성 말뭉치)와 Clovacall(통화 기반 대화 말뭉치)에서 음성 인식 성능을 실험한 결과 다중 작업 계층 아키텍처와 조합 디코딩을 적용한 모델은 다양한 평가지표에서 최고의 성능을 기록했다. 또한,
언어 간 전이학습을 위해 적용한 추가 사전 학습 방법론은 추가 데이터 없이도 모델의 음성 인식 성능을 향상시켰다.

목차

1 서론 1
2 선행 연구 4
2.1 Wav2vec 2.0 아키텍처와 사전 학습 방법 4
2.2 음성인식 과업에 대한 미세 조정 방법 5
3 방법론 6
3.1 다중 과업 계층 아키텍처 6
3.2 다중 과업 학습 방법론 7
3.3 조합 디코더 8
3.4 추가 사전 학습 방법론 10
4 실험 설계 12
4.1 실험 데이터 12
4.2 사전 학습 모델 13
4.3 미세 조정 전략 14
4.4 평가 지표 15
4.5 기준 모델 16
5 실험 결과 17
5.1 대용량의 자원을 활용한 음성 인식 17
5.2 소량의 자원을 활용한 음성 인식 20
5.3 추가 사전 학습 방법론 비교 22
5.4 데이터의 속성과 사전 학습의 관계 23
6 상세 분석 28
6.1 다중 과업 모델의 자소와 음절의 관계 28
6.2 조합 디코더의 음절과 자소 기여 가중치 분석 29
6.3 조합 디코더의 OOV 문제 완화 분석 31
6.4 추가 사전 학습의 언어 간 전이 분석 32
7 결론 34
참고 문헌 35

최근 본 자료

전체보기

댓글(0)

0