메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학술저널
저자정보
저널정보
한국자료분석학회 Journal of The Korean Data Analysis Society Journal of The Korean Data Analysis Society 제15권 제4호
발행연도
2013.1
수록면
1,883 - 1,892 (10page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색

초록· 키워드

오류제보하기
반응/미반응과 같은 이분형(binary) 목표변수를 갖는 모집단에서 모형개발을 위한 데이터마트를 형성할 때 반응/미반응 구성비는 구축된 모형의 성능에 영향을 준다. 따라서 목표변수의 특정 범주가 상대적으로 희소한 경우 모형 구축을 위하여 데이터마트를 형성할 때, 목표변수 각 범주 빈도의 수적 형평성을 맞추는 것이 바람직하다. 이를 과대표본추출(oversampling)이라고 한다. 본 연구는 이에 대한 실험적 연구로 과대표본추출의 구성비를 1:1에서 1:20까지 다양하게 구성하여 분류기준값(cut-off) 별로 최적모형을 찾아보았다. 특히 앙상블 기법인 부스팅(boosting) 중 아다부스트(AdaBoost)와 랜덤포레스트(random forests) 기법을 의사결정나무 및 회귀모형과 함께 비교하였다. 또한 교차타당성(cross-validation)을 통한 검증을 통하여 과대표본추출의 적절한 분류기준값과 구성비를 찾아보았다. 분류기준값 0.10에서 구성비가 1:20, 1:16 등 불균형이 심할 때는 로지스틱회귀분석이 좋은 결과를 주었으며 그 외의 구성비에서는 아다부스트가 가장 좋은 결과를 주었다. 분류기준값 0.20에서는 구성비의 불균형이 적을 때는 아다부스트가 좋은 결과를 주었으며 구성비의 불균형이 클 때는 의사결정나무가 좋은 결과를 주었다. 분류기준값 0.3에서 0.5까지에서는 로지스틱회귀분석과 랜덤포레스트가 좋은 결과를 주고 있으며 의사결정나무는 상대적으로 좋지 않은 결과를 보였다.

목차

등록된 정보가 없습니다.

참고문헌 (15)

참고문헌 신청

이 논문의 저자 정보

최근 본 자료

전체보기

댓글(0)

0