메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

박종일 (서울과학기술대학교 )

지도교수
박종열
발행연도
2023
저작권
서울과학기술대학교 논문은 저작권에 의해 보호받습니다.

이용수1

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
본 논문에서는 기존의 Video-INR과 다른 새로운 Spatio-Temporal Split Video-INR 구조를 제안한다. 내재적 신경 표현(Implicit Neural Network; INR)은 어떤 신호를 신경망을 통해 표현하고자 하는 네트워크이다. INR은 시각 인공지능의 이미지 생성(Image Generation), 시점 합성(View Synthesis)과 같은 다양한 분야에서 최근 몇 년 동안 성공적인 성과를 보이고 있다. 마찬가지로 최근 많은 관심을 받고 있는 비디오 생성(Video Generation)에서 INR을 사용하려는 시도가 있다. 이미지 생성 INR은 이미지의 공간 좌표를 RGB 신호로 표현하는 모델이다. 이미지 생성 INR은 생성된 이미지의 공간적 확장성에서 장점을 보인다. 비디오 데이터는 이미지에 시간 축이 추가된 데이터라는 점에서 Video-INR은 비디오의 시공간 좌표를 RGB로 표현하는 네트워크 구조를 가진다. Video-INR또한 이미지 생성 INR과 같이 시공간적 확장성에 장점을 보인다. 하지만 간단한 비디오 데이터셋이 아닌 복잡한 구조를 가지는 UCF-101과 같은 비디오 데이터셋에서 모델을 학습했을 때, 생성되는 비디오의 품질이 부족한 현상이 있다. 이는 Video-INR의 구조가 복잡한 비디오 데이터가 가지는 정보들을 충분히 학습하지 못하고 있음을 의미한다.
본 연구에서는 이러한 기존 Video-INR의 단점을 해결하기 위해 복잡한 비디오 데이터가 가지고 있는 정보를 시간적(Temporal) 정보와 공간적(Spatial) 정보로 분해하여 학습 할 수 있는 네트워크를 제안한다. 제안하는 Spatio-Temporal Split Video-INR 구조는 Spatial-INR과 Temporal-INR로 분해된 구조이다. 이러한 구조를 통해 비디오의 공간적 정보와 시간적 정보를 각각의 INR로 학습해 복잡한 비디오 데이터에서 기존의 Video-INR보다 생성 비디오의 품질이 상승했다.

목차

I. 서 론 1
II. 관련 연구 4
1. 적대적 생성 신경망 4
2. 비디오 생성 모델 5
3. 내재적 신경 네트워크 9
III. 제안 모델 13
1. 가중치 생성기 13
2. 공간 INR과 시간 INR 14
3. 합성 네트워크 19
4. 판별기 20
IV. 실험 22
1. 실험 환경 22
2. 성능 비교 24
3. 프레임 인덱스 Positional Encoding 26
4. Fuse Network 29
5. 중간 특징 맵 크기 30
6. 종류별 실험 32
V. 결 론 34
참고문헌 35
영문초록(Abstract) 39

최근 본 자료

전체보기

댓글(0)

0