메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이택희 (서울시립대학교, 서울시립대학교 대학원)

지도교수
이영민
발행연도
2018
저작권
서울시립대학교 논문은 저작권에 의해 보호받습니다.

이용수14

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
최근 딥러닝(Deep Learning)의 보편화에 따라 임베디드 시스템에서의 딥러닝 수행의 필요성이 커지고 있다. 자율주행 자동차에서의 객체인식, 스마트폰에서 필기체 인식 등, 여러 응용들을 위해서는 실시간으로 딥러닝 추론이 가능해야 한다.
한편 임베디드 GPU는 서버 GPU에 비해 매우 적은 코어 수와, 부족한 컴퓨팅 파워로 성능이 매우 많이 떨어진다. 반면 멀티코어를 활용하는 임베디드 CPU는 코어가 제공하는 벡터명령어를 사용하게 되면 성능면에서 임베디드 GPU와 비슷하거나 심지어 더 빠른 경우도 있다. 따라서, CNN(Convolutional Neural Network) 수행을 위해 임베디드 GPU만 활용하기 보다는 GPU와 CPU 를 동시에 사용할 필요가 있다.
본 논문에서는 CNN을 수행하기 위해 GPU와 CPU를 동시에 활용하는 기법을 제안한다. 네트워크의 각 레이어를 GPU 또는 CPU가 담당하는 방법, 하나의 레이어를 GPU와 CPU가 동시에 수행하는 방법, 그리고 GPU와 CPU의 성능을 고려해 각각 네트워크를 분할하여 담당한 후 파이프라인 방식으로 중첩하여 수행하는 방법이 있다.
Caffe 및 Tensorflow와 같이 널리 사용되고 있는 딥러닝 프레임워크는 메모리 요구량이 많으며 임베디드 시스템에서 추론엔진으로 사용되기에는 비효율적이다. 따라서 Caffe 모델을 읽을 수 있으며, 입력 및 출력 데이터를 지정한대로 효율적으로 전송하여 각 레이어를 CPU 또는 GPU에서 처리하거나 CPU 및 GPU에서 동시에 처리할 수 있는 추론 엔진을 구현하였다. 엑시노스5422 기반 플랫폼에서 SqueezeNet을 대상으로 실험을 수행한 결과, 레이어 그룹별 파이프라이닝으로 수행한 것이 가장 빠르게 수행되는 것을 확인하였고, 이미지 100장 수행 기준, GPU 단독보다 1.97배, CPU 단독보다 1.7배 가속할 수 있었다.
주요어: GPU, CPU, 임베디드, 네트워크, 레이어, 추론

목차

제 1 장 서 론 1
제 2 장 관련 연구 3
제 3 장 배경 지식 5
제 1 절 임베디드 시스템 5
제 2 절 Exynos 5422 SoC 6
제 3 절 딥러닝과 CNN 8
제 4 절 SqueezeNet 12
제 5 절 ACL(ARM Compute Library) 라이브러리 14
제 6 절 Caffe-HRT(Heterogeneous Run Time) 프레임워크 15
제 4 장 제안 기법 17
제 1 절 CIE(C++ Inference Engine) 프레임워크 17
제 2 절 레이어별 매핑 25
제 3 절 레이어내 분할 매핑 27
제 4 절 레이어 그룹별 파이프라이닝 31
제 5 장 실험 결과 34
제 1 절 실험 환경 34
제 2 절 CPU 및 GPU 단독 실험 34
제 3 절 레이어별 매핑 실험 35
제 4 절 레이어내 분할 매핑 실험 37
제 5 절 레이어 그룹별 파이프라이닝 39
제 6 장 결 론 42
참고문헌 44
ABSTRACTS 46
감사의 글 47

최근 본 자료

전체보기

댓글(0)

0