메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
송원문 (줌인터넷) 김우승 (줌인터넷) 김명원 (숭실대학교)
저널정보
Korean Institute of Information Scientists and Engineers 정보과학회논문지 : 소프트웨어 및 응용 정보과학회논문지 : 소프트웨어 및 응용 제40권 제3호
발행연도
2013.3
수록면
155 - 163 (9page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 이와 같은 환경에서, 사용자의 요구에 적합한 웹 서비스를 제공하기 위해서는 웹 문서로부터 광고와 같은 비 본문 영역 등을 제거하고 본문에 적합한 정보만을 정확하고 빠르게 추출하는 것이 중요하다. 이에 본 논문에서는 HTML 형태의 웹 문서로부터 본문 영역을 정확하게 추출하는 방법을 제안한다. 제안한 방법에서는 문서내의 각각의 텍스트 블록들이 본문 영역에 해당하는지 분류하기 위하여 의사결정트리를 생성하고 이용하였으며 분류를 위한 특징으로는 텍스트 블록의 단어 및 링크 밀도와 HTML 태그 분포 및 텍스트 블록간 거리 등을 포함하는 문맥 정보를 사용하였다. 공개된 데이터 및 본 연구팀에서 직접 수집한 데이터를 이용한 실험을 통해 기존의 방법에 비해 F-Measure가 약 19% 향상되었음을 보였다.

목차

요약
Abstract
1. 서론
2. 관련 연구
3. 텍스트 블록 주변의 문맥 정보를 이용한 웹 문서 본문 추출
4. 실험 및 평가
5. 결론 및 향후 연구
참고문헌

참고문헌 (14)

참고문헌 신청

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-ECN-0101-2014-569-000186084