메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

서아정 (서울대학교, 서울대학교 대학원)

지도교수
장병탁
발행연도
2021
저작권
서울대학교 논문은 저작권에 의해 보호받습니다.

이용수0

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
비디오 질의 응답은 AI 에이전트가 주어진 비디오를 기반으로 관련된 질문에 응답하는 문제이다. 비디오 질의 응답 문제를 해결하기 위해서는 세 가지 과제를 해결하여야 한다: (1) 다양한 질문의 의도를 이해하고, (2) 주어진 비디오의 다양한 요소(e.g. 물체, 행동, 인과관계)를 파악하여야 하며, (3) 언어와 시각 정보 두 modality 간의 상관관계를 기반으로 생성된 표상(cross-modal representation)을 통해 정답을 추론하여야 한다. 따라서 본 학위논문에서는 동작 정보 및 모양 정보에 기반한 두 가지 cross-modal representation 을 생성하고, 이를 질문의 의도에 따라 가중합하는 동작-모양 시너지 네트워크를 제안한다.
제안하는 모델은 세 가지의 모듈: 동작 모듈, 모양 모듈, 동작-모양 융합 모듈로 구성되어 있다. 동작 모듈에서는 질문과 행동 정보를 융합한 cross-modal representation 을 생성하며, 모양 모듈에서는 주어진 비디오의 모양 측면에 집중하여 표상을 생성한다. 최종적으로 동작-모양 융합 모듈에서 인코딩된 두 정보가 질문의 내용을 기반으로 융합된다. 실험 결과, 제안하는 모델은 대규모 비디오 질의 응답 데이터셋인 TGIF-QA 와 MSVD-QA 에 대해 최첨단의 성능을 보였다. 본 논문에서는 또한 제안하는 모델의 정성적 평가 결과에 대해서도 보여준다.

목차

제 1 장 서 론 1
제 1 절 연구의 배경 1
제 2 절 연구의 내용 2
제 2 장 배경 연구 5
제 1 절 시각 정보 기반 질의 응답 모델들 5
제 2 절 행동 분류 모델들 5
제 3 절 어텐션 메커니즘 6
제 3 장 동작-모양 시너지 네트워크 7
제 1 절 시각 및 언어 표상 7
제 2 절 동작 및 모양 모듈 9
제 3 절 동작-모양 융합 모듈 10
제 4 절 정답 추론 및 목적 함수 13
제 4 장 실험 및 결과 14
제 1 절 학습 데이터 14
제 2 절 학습 조건 15
제 3 절 최첨단 접근 방식과의 비교 15
제 4 절 모듈 별 기여도 평가 17
제 5 절 정성적 평가 19
제 5 장 결론 및 제언 21
참고문헌 22
Abstract 27

최근 본 자료

전체보기

댓글(0)

0