단어 벡터 기반의 구조화된 문서 특징을 이용한 단일 문서요약 성능 평가

진훈; 김성국

추천

검색

질문

자료유형: 학술대회자료

저자정보: 진훈 (연세대학교) 김성국 (연세대학교)

저널정보: 한국지능정보시스템학회 한국지능정보시스템학회 학술대회논문집 한국지능정보시스템학회 2012년 추계학술대회

발행연도: 2012.12

수록면: 199 - 204 (6page)

이용수

📌

연구주제

📖

연구배경

🔬

연구방법

🏆

연구결과

이 논문의 연구 히스토리 (2)

2013

MLP 기반의 문서 특징을 고려한 가중치가 문서요약 성능에 미치는 영향 분석

진훈 대한전자공학회 학술대회 2013.07 학술대회자료

2012

단어 벡터 기반의 구조화된 문서 특징을 이용한 단일 문서요약 성능 평가

진훈 , 김성국 한국지능정보시스템학회 학술대회논문집 2012.12 학술대회자료

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

일반적으로 논문의 초록은 나머지 전문 내용을 고려하여 저자가 직접 작성한 요약문으로서 해당 문서의 내용적 특징과 함께 키워드를 효과적으로 축약하여 나타낸다. 그러므로 초록을 제외한 전문 내용에 대해 기계적으로 수행한 요약문을 초록문과 최대한 유사하게 생성하는 것이 문서요약의 성능에 있어 효과적이다. 우리는 생물학-의학 분야의 과학 문헌들을 대상으로 문서의 구조적 특성을 고려하여 특징들을 추출한 후 초록문과의 유사도를 비교하였다. 실험을 위해 초록을 제외한 나머지 본문을 하나의 문서로 보고 초록문과 유사도를 측정하였고 섹션 별로 나뉘어진 개별 문서들의 집합으로 보고 각각의 문서들에 대해 초록문과의 유사도의 성능 변화를 측정하고 평가하였다. 이때 초록의 경우 단어벡터 별 가중치를 부여하기 위해 NLP 기법의 하나인 태깅(tagging) 작업을 통해 생성되는 단어와 구의 발생빈도를 중첩시켜 측정하였다. 실험을 통해 단일 문서 내에서 하나의 초록과 하나의 본문 간의 일대일 비교가 아니라 일대다 관계의 비교문제로 치환하여 유사도를 측정했을 때 성능이 증가하는 것을 확인할 수 있었다. 그리고 초록에 발생하는 단어를 기반으로 본문에 등장하는 단어들의 섹션 별 발생 비와 수를 측정함으로써 초록과의 유사성을 비교 분석하였다. 실험 결과를 통해 일정한 형식을 가진 단일 문서 비교에 있어 문서적 특성을 고려함으로써 다중 문서들 간의 비교 기법을 적용할 경우 유사성이 향상되는 것을 확인하였다. 또한 단어벡터 기반의 분석과정 시에 문서의 내용적 특성을 고려하여 추가적 가중치를 부여했을 때 역시 유사성이 증가하는 것을 확인하였다. 그럼에도 불구하고 문서요약을 위해 실제 초록에 등장하는 단어들에 대해 각 섹션 별 발생 횟수나 빈도비를 계산하였을 때 내용적 측면에서 유사도가 높지 않은 것으로 나타났다.

#문서요약 #단일 문서 유사도 #단어벡터 #가중치 #자연어처리 #생물-의학 문헌

참고문헌 (0)

참고문헌 신청

참고문헌이 DBpia에서 서비스 중이라면, [참고문헌 신청]을 통해 등록해보세요

이 논문의 저자 정보

진훈

소속기관 고큐바테크놀로지

주요연구분야 공학 > 전기전자공학 > 전자공학 TOP 5% 공학 > 컴퓨터학

논문수 38 이용수 4,279

김성국

소속기관 연세대학교

주요연구분야 공학 > 기계공학 > 기계공학 일반 공학 > 산업공학

논문수 33 이용수 2,056

이 논문과 함께 이용한 논문

태그간 의미 분석을 이용한 다중 문서 요약 기법

허지욱 , 주영도 , 이동호 정보과학회논문지 : 데이타베이스 2012 .02

TextRank 알고리즘을 이용한 한국어 중요 문장 추출

홍진표 , 차정원 한국정보과학회 학술발표논문집 2009 .06

문장군집의 응집도와 의미특징을 이용한 포괄적 문서요약

박선 , 이연우 , 심천식 외 1명 한국정보통신학회논문지 2012 .12

Document Summarization Considering Entailment Relation between Sentences

권영대 , 김누리 , 이지형 Journal of KIISE 2017 .02

문장 수반 관계 추론을 통한 문서 요약

권영대 , 김누리 , 이지형 한국정보과학회 학술발표논문집 2016 .06

최근 본 자료

전체보기

UCI(KEPA) : I410-ECN-0101-2014-003-000361688

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (2)

초록· 키워드

AI 요약

연구주제

연구배경

연구방법

연구결과

주요내용

목차

참고문헌 (0)

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

댓글(0)