메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김석준 (성균관대학교, 성균관대학교 일반대학원)

지도교수
이종석
발행연도
2022
저작권
성균관대학교 논문은 저작권에 의해 보호받습니다.

이용수54

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
불균형 데이터에 대한 분류 모델 학습은 다수 클래스에 대한 예측 편향 문제를 발생시킨다. 클래스 불균형 문제를 해결하기 위한 방법 중 하나로 가상의 소수 클래스 데이터를 생성하는 SMOTE 계열의 오버샘플링 기법들이 존재하지만, 거리 기반의 방법이기 때문에 범주형 변수가 존재하거나 고차원 데이터의 경우에 적용의 한계점을 가진다. 한편, GAN(Generative Adversarial Network)을 활용함으로써 소수 클래스 데이터를 학습하여 생성하는 방법은 고차원 데이터에 대해서도 유사한 데이터를 생성할 수 있다. 하지만, 데이터에 범주형 변수가 많을수록 그리고 범주의 수가 많을수록 재현 성능이 저하되는 단점이 있다. 이를 극복하기 위한 방안으로, 본 연구에서는 범주형 변수 임베딩 방법인 CAT2VEC(Categories to Vectors)을 CTGAN(Conditional Tabular GAN)에 결합한 소수 클래스 데이터 재현 방법을 제안한다. CAT2VEC을 활용함으로써 데이터를 낮은 차원으로 축소할 뿐만 아니라 이진 분류를 위한 범주간의 관계를 반영할 수 있으며, CTGAN은 타겟 변수를 조건 벡터로 설정하여 조건별 학습 과정을 통해 소수 클래스와 매우 유사한 데이터를 생성할 수 있게 한다. 10개의 실제 불균형 데이터 대하여 기존 오버샘플링 기법들과 비교 실험을 진행한 결과, 본 연구의 제안 방법이 가장 우수한 분류 성능을 보였다.

목차

제 1 장 서 론 1
1. 연구의 배경 1
2. 연구의 필요성 및 목적 3
3. 논문의 구성 6
제 2 장 관련 연구 7
1. 범주형 변수의 임베딩 방법 7
2. GAN 8
3. CTGAN 10
제 3 장 제안 방법 12
1. 전처리 모듈 15
1) CAT2VEC 15
2) Mode-specific Normalization 21
2. CGAN 24
1) Conditional Vector 24
2) Generator Loss Function 25
3) Training-by-sampling 25
제 4 장 실험 설계 및 결과 27
1. 실험 데이터 27
2. 오버샘플링 비교 기법 28
3. 평가 지표 28
4. 실험 결과 30
제 5 장 결론 및 향후 연구 45
참 고 문 헌 47
부 록 51
ABSTRACT 55

최근 본 자료

전체보기

댓글(0)

0