메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
박선영 (부산대학교) 김성환 (부산대학교) 조환규 (부산대학교)
저널정보
Korean Institute of Information Scientists and Engineers 한국정보과학회 학술발표논문집 한국정보과학회 2011가을 학술발표논문집 제38권 제2호(B)
발행연도
2011.11
수록면
205 - 208 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

이 논문의 연구 히스토리 (5)

초록· 키워드

오류제보하기
최근 유사 문서 탐색 시스템의 개발이 꾸준히 이루어지고 있는 가운데, 유사 문서 탐색을 위한 데이터 수집 문제가 저작권과 관련하여 큰 문제가 되고 있다. 많은 저작권자들은 자신의 저작물이 표절의 대상이 되는 것을 원하지 않지만, 유사 문서 탐색 시스템에서 자신의 저작물을 수집하는 것에도 거부감을 가지고 있다. 이는 대부분의 시스템이 가지고 있는 한계이며, 원 저자의 동의 없이 유사 문서 탐색을 하기는 매우 힘들다. 만약 유사 문서 탐색 시스템이 저작권자들의 저작물을 복원할 수 없도록 변환하여 보관하는 것을 보장한다면, 저작권자들이 데이터를 제공하는 데에 드는 거부감을 완화할 수 있을 것이다. 본 논문에서는 한글의 특성 상 초성의 정보량이 가장 큰 것에 착안하여, 초성을 이용한 한글 스킨 추출 방법을 이용한 원문 보호가 이루어지면서 특정 단어나 문장이 존재하는지 탐색할 수 있는 시스템을 제안한다. 제안하는 시스템은 입력된 한글 문서의 초성(스킨)을 추출하고, 추출된 데이터를 저장하기 위하여 버로우즈-휠러 변환(Burrows-Wheeler Transformation)을 수행하여 접미사 배열 정보와 원문 정보를 최소한의 용량으로 저장한다. 실험 결과 초성 추출 이후 탐색 정확도를 확보하기 위해서는 20글자 이상의 문장을 검색할 필요가 있으며, BWT를 이용한 접미사 배열 기반의 탐색 결과 순수 텍스트 기준 100MB 크기의 말뭉치에서 다양한 크기와 종류의 데이터에 대해 모두 0.01초 내에 탐색을 완료하여 사실상 실시간 검색이 가능함을 보였다. 이번에 제안한 방법으로는 정확히 일치하는 문장에 대해서만 탐색이 가능하고, 한글 문서만 보호할 수 있다. 추후 불일치를 허용하는 탐색 방법을 개발하고, 영어, 중국어 등 모든 언어에 적용 가능한 보호 방법에 대해서 연구할 계획이다.

목차

요약
1. 서론
2. 관련 연구
3. 한글 문서에 대한 보호 및 탐색 기법
4. 시스템 성능 평가를 위한 실험
5. 결론
감사의 글
참고문헌

참고문헌 (1)

참고문헌 신청

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0