메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이재윤 (경기대학교, 경기대학교 대학원)

지도교수
김인철
발행연도
2021
저작권
경기대학교 논문은 저작권에 의해 보호받습니다.

이용수8

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
영상 기반 상식 추론(Visual Commonsense Reasoning)을 효과적으로 수행하기 위해서는 영상과 자연어 질문을 상호 연관 지어 이해하는 멀티 모달 정렬 문제(multimodal alignment problem)와 답변 유도에 필요한 상식 습득 문제(commonsense knowledge acquisition problem)를 해결하여야 한다. 본 논문에서는 이러한 문제들을 해결하기 위해 공개 지식베이스인 ConceptNet에서 질문과 관련된 지식 그래프를 추출한 후, 이것을 입력 영상, 자연어 질문 등과 함께 답변 추론에 활용하는 새로운 심층 신경망 모델 VilLaKG(Vision Language Knowledge Graph co-embedding)을 제안한다. 이 제안 모델에서는 영상, 자연어, 지식 그래프와 같이 서로 다른 3가지 멀티 모달 정보를 함께 임베딩 하는 사전 학습된 시각-언어-지식 공동 임베딩 모듈(pretrained vision-language-knowledge graph embedding module)을 이용한다. 제안 모델에서는 지식 그래프의 구조 정보를 효과적으로 반영하기 위해 그래프 합성곱 신경망 계층(graph convolutional neural network layer)을 이용해 먼저 지식 그래프를 임베딩한 다음, multi-head self-attention 계층들을 이용해 영상, 자연어 질문과 함께 공동 임베딩한다. 본 연구에서는 벤치마크 데이터 집합인 VCR을 이용한 다양한 실험들을 하였고, 이를 통해 제안 모델의 높은 성능을 확인할 수 있었다.

목차

제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 목표 4
제 2 장 이론적 배경 6
제 1 절 영상 기반 상식 추론 6
제 2 절 지식 임베딩 8
제 3 장 영상 기반 상식 추론 모델 10
제 1 절 문제 정의 10
제 2 절 제안 모델의 개요 12
제 3 절 지식 추출 14
제 4 절 멀티 모달 임베딩 및 답변 결정 16
제 4 장 구현 및 실험 23
제 1 절 데이터 집합 및 모델 학습 23
제 2 절 정량적 실험 24
제 1 항 지식 임베딩 방법 비교 24
제 2 항 멀티 모달 공동 임베딩 방법 비교 25
제 3 항 사전 학습 작업 효과 비교 27
제 4 항 기존 모델들과의 성능 비교 29
제 3 절 정성적 실험 31
제 5 장 결론 및 향후 연구 36
참고문헌 38
Abstract 43

최근 본 자료

전체보기

댓글(0)

0