메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

장서인 (숙명여자대학교, 숙명여자대학교 대학원)

지도교수
여인권
발행연도
2021
저작권
숙명여자대학교 논문은 저작권에 의해 보호받습니다.

이용수2

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
범주 불균형은 범주들의 개체 수가 차이 나는 데이터를 분류할 때 발생한다. 일반적인 분류 모형은 균형 데이터 개체의 적합값을 0.5 기준으로 분류하여 범주를 예측한다. 그러나 불균형 데이터의 적합값을 0.5로 분류하면 대부분의 개체를 다수 범주로 분류하여 소수 범주의 개체를 제대로 예측해내지 못한다. 본 논문에서는 소수 범주의 분류 정확도를 높이기 위해 분류 기준점을 조정하는 새로운 방법을 제시한다.
제안하는 방법은 범주 내 개체들의 이질성 척도인 불순도를 기반으로 하는 분류 기준점 조정 방법이다. 불순도를 최소화하는 값을 분류 기준점으로 설정하는 것이 핵심이다. 주실험으로 불균형 데이터를 불순도 기준으로 분류한 결과와 0.5로 분류한 결과를 비교한다. 소수 범주의 분류 정확도, Balanced Accuracy, G-Mean 등의 측도로 성능을 계산한 결과, 제안하는 방법에서 모든 성능이 전체적으로 향상되었다. 이후 샘플링으로 범주의 비율을 임의로 조정하여 같은 실험을 수행하였다. 그 결과, 데이터에 따라 분류 성능에 차이가 있지만, 0.5가 최적의 분류 기준점이 아닐 수 있으며, 불순도에 기반한 기준점에서 소수 범주의 정확도가 더 높아질 수 있음을 확인하였다.

목차

1. 서론 = 1
2. 관련 연구 = 4
2.1. 샘플링(Sampling) = 4
2.1.1. 언더샘플링(RUS, Random Under Sampling) = 4
2.1.2. 오버샘플링(ROS, Random Over Sampling) = 5
2.1.3. SMOTE(Synthetic Minority Oversampling Technique) = 5
2.2. 임계값 조정 방법 = 6
2.3. 성능 평가 측도 = 7
2.3.1. 오류율(False Rate) = 9
2.3.2. Balanced Accuracy = 9
2.3.3. Geometric Mean(G-Mean) = 10
2.3.4. F1-Score = 10
3. 제안 방법 = 12
3.1. 불순도 지수 = 12
3.1.1. 카이제곱 통계량 = 12
3.1.2. 지니 지수 = 13
3.1.3. 엔트로피 지수 = 14
3.2. 불순도 기반 분류 기준점 조정 방법 = 15
4. 실험 및 결과 = 19
4.1. 실험 데이터 = 19
4.2. 실험 설계 = 20
4.2.1. 주실험 = 21
4.2.2. 샘플링 응용 실험 = 21
4.3. 실험 결과 = 22
4.3.1. 주실험 결과 = 23
4.3.2. 샘플링 응용 실험 결과 = 26
5. 결론 = 35
참고문헌 = 37

최근 본 자료

전체보기

댓글(0)

0