메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

김병진 (숭실대학교, 숭실대학교 대학원)

지도교수
이상준
발행연도
2019
저작권
숭실대학교 논문은 저작권에 의해 보호받습니다.

이용수20

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (3)

초록· 키워드

오류제보하기
인터넷 이용률은 매년 꾸준히 상승하고 있다. 인터넷의 발전은 정보를 빠르고 쉽게 얻는 것이 가능해졌지만 음란물, 성매매, 도박, 살인 및 자살 등의 유해 정보에 쉽게 접근이 가능하다는 문제가 있다. 또한 일부 커뮤니티에서는 개인의 사생활 침해 또는 불법행위의 선동 등 유해 정보들이 이성적인 성인뿐만이 아니라 아직 미성숙한 청소년들 에게 까지 무분별하게 노출 되고 있다. 이러한 문제점 때문에 정부는 유해사이트 차단을 위한 노력을 하고 있지만 유해사이트의 규모가 방대하고 판별 방법에 정확한 기준이 없어 어려움을 겪고 있다. 오늘날, 유해사이트를 판별하기 위한 여러 방법이 제안 되었지만 큰 비용과 시간이 필요하거나 판별의 정확도가 낮았다. 기존에 제안 된 웹 사이트 간 연결 관계를 이용한 유해사이트 판별 방법은 대규모 유해사이트를 판별하는데 소모되는 비용과 시간을 줄이는데 기여했지만 판별의 정확도 문제는 해결하지 못하였다. 따라서 유해사이트 판별 방법의 정확도를 개선 할 새로운 방법이 필요하다.

본 논문에서는 기존에 제안 된 웹 사이트 간 연결 관계 기반 유해사이트 판별 방법의 정확도 문제를 해결하기 위해 먼저 기계학습에 기반한 유해사이트 분류 시스템을 제안한다. 제안 방법은 기존의 연결 관계를 이용한 유해사이트 판별 방법으로 구축된 유해사이트 데이터베이스를 클러스터링 하고 클러스터 별 정보를 전처리 과정을 통해 메타데이터를 생성한다. 웹 사이트의 메타데이터를 이용하여 분류 예측 알고리즘을 만들고 예측 값과 메타데이터 값을 학습시켜 유해사이트 분류 모델을 생성한다. 제안한 모델로 분류한 여러 유형의 사이트 중 비 유해사이트를 이용하여 화이트리스트를 구축하고 웹 사이트간 연결 관계를 이용한 화이트리스트 구축 방법으로 화이트리스트를 확장한다. 또한, 제안 방법으로 명확한 유해사이트에 대한 분류 기준이 없는 우리나라에게 유해사이트 분류 기준을 제시하고 화이트리스트를 이용하여 기존 웹 사이트간 연결 관계를 이용한 유해사이트 판별 방법의 정확도를 개선한다.

목차

국문초록 ⅴ
영문초록 ⅶ
제 1 장 서론 1
1.1 연구 배경 및 목적 1
1.2 논문 구성 5
제 2 장 관련 연구 및 배경 6
2.1 불법 유해 정보 분류 체계 연구 6
2.2 유해사이트 판별 방법 연구 8
2.2.1 내부 콘텐츠 분석 기반 유해사이트 판별 방법 8
2.2.2 웹 사이트간 연결 관계를 이용한 유해사이트 판별 방법 9
2.3 기계학습 기반 분류 방법 연구 11
2.3.1 Random Forest 분류 모델 12
제 3 장 제안 방법 14
3.1 시스템 구조 14
3.2 시스템 1계층: 데이터 수집 15
3.2.1 웹 사이트 데이터 수집 및 데이터베이스 구축 15
3.3 시스템 2계층: 데이터 전처리 16
3.3.1 텍스트 데이터 전처리(1) 16
3.3.2 텍스트 데이터 전처리(2) 21
3.3.3 도메인 이름과 유해단어 개수 전처리 22
3.3.4 이미지, 자식 도메인 개수 전처리 23
3.3.5 전처리 데이터를 이용한 분류 예측 알고리즘 24
3.4 화이트리스트 구축 방법 25
3.4.1 정부, 교육기관을 위한 도메인 25
3.4.2 제안하는 화이트리스트 구축 방법 26
3.5 시스템 3계층: 기계학습 검증 및 결과 데이터 제공 28
3.5.1 유해사이트 분류 모델 및 화이트리스트 확장 방법 28
제 4 장 실험 및 평가 29
4.1 웹 사이트 수집 및 유해사이트 판별 모델 29
4.2 유해사이트 분류 모델 30
4.2.1 전처리 하지 않은 단순 텍스트 기계학습 31
4.2.2 전처리 한 텍스트 기계학습 32
4.2.3 전처리한 웹페이지 정보를 이용한 기계학습 33
4.2.4 전처리 데이터를 이용한 분류 예측 알고리즘 34
4.2.5 예측 알고리즘의 결과와 전처리한 데이터를 이용한 기계학습 35
4.2.6 기계학습 기반 분류 모델 실험 결과 36
4.3 제안 시스템 평가 37
제 5 장 결론 38
참고문헌 39

최근 본 자료

전체보기

댓글(0)

0