본 연구에서는 딥러닝 기법을 이용한 점군 인지에 관한 다양한 방식을 제안한다. 현재 자율주행차의 다양한 분야에서 정확한 3차원 정보의 처리가 요구되고 있다. 점군(포인트 클라우드)으로 표현되는 데이터는 물체의 거리 정보와 좌표 정보를 정확하게 표시할 수 있어 로봇, 자율주행차 등에서 활발히 연구되고 있다. 3D 공간상에서 추출되는 점군은 순열 불변성, 비정형, 무순서적 특성을 가진다. 이를 통해 기존 이미지 인지 딥러닝 기법과는 다양한 데이터 전처리 기법을 거쳐 발전했다. 위 논문에서는 다양한 점군 처리 방식을 통한 성능 및 효율성을 높이는 연구를 제시한다. 첫 번째로, 점 기반 방식을 통해 입력특성에 따른 일반화 성능을 검증했으며, 이를 통해 점군이 가지는 고유의 위치정보만 사용했을 때 학습에 사용되지 않은 실제 환경에서 추출된 점군에 대해 일반화 성능이 좋다는 것을 정성적으로 검증했다. 두 번째로, 이미지 딥러닝 기술과 카메라 파라미터를 사용하여 손쉽게 인지된 점군을 생성할 수 있는 방법을 제안했다. 세 번째, 우리는 전체 점군을 이미지 형태로 변환하는 구형 투사 기법을 통해 위의 모든 과정을 자동화 시킨 이미지 딥러닝 기술을 통한 점군 분할을 연구했다. 위 방식은 기존의 높은 컴퓨팅 코스트가 요구되는 점군 분할 방식을 이미지 형태로 학습함으로써, 효율성 측면에서 이점을 얻을 수 있는 장점도 있다. 더불어, 기존의 점군으로 자유롭게 재 변환될 수 있는 구형 투사 기법의 이점을 살려 복셀화 딥러닝 기법을 병렬로 처리한다. 이를 통해 각각 점군의 2D, 3D 차원에서 의미 있는 특징을 추출할 수 있었고, 이를 융합하는 융합 네트워크 모듈 설계를 통해 두 개의 차원을 효율적으로 학습 할 수 있게 하였다. 네 번째로, 자연어 처리에서 제안되어 현재 활발하게 연구되고 있는 Transformer 구조를 통해 점군 처리를 진행한다. Transformer 구조는 Attention 구조를 중점으로 한 구조로, 현재 이미지 처리와 점 기반의 점군처리 구조에서 높은 성능을 보이고 있다. 구형 투사 기법의 지역적 특징 추출 장점과 Transformer의 Self-Attention 구조를 통해 성능 향상을 진행한다. 다섯 번째로. 위의 Transformer 기법을 경량화 하여 실외 도로 환경에서 실시간으로 작동될 수 있는 구조를 제안한다. 경량화 vector attention 기법과 구형 position encoding 등을 제안하여 모바일 컴퓨팅을 위한 딥러닝 구조를 제안 한다.
In this research, we propose various methods for point cloud recognition using deep learning techniques. A point cloud extracted from 3D space has Irregularity, Unstructured, and Unorderdness characteristics. For this reason, unlike the existing image recognition deep learning technique, it has been developed through various data preprocessing techniques. In this paper, we present researches to improve performance and efficiency through various point cloud processing methods. First, we use a point-based method to verify the generalization performance according to input characteristics. We qualitatively verified that the generalization performance of the point cloud extracted from the real environment not used for learning has better performances when only the unique location information of the point cloud is used. Second, we proposed a method that can easily generate perceived point clouds using image deep learning techniques and camera parameters. Third, we studied point cloud segmentation through image deep learning technology that automates all of the above processes through a spherical projection technique that converts the entire point cloud into an image form. Through the above method, we train the existing point cloud segmentation method, which requires high computing cost, in the form of an image, and confirm the advantage of obtaining an advantage in terms of efficiency. In addition, we process the voxelized deep learning technique in parallel by taking advantage of the spherical projection technique that can be freely re-transformed into the existing point cloud. Through this, we were able to extract meaningful features in the 2D and 3D dimensions of the point cloud, respectively, and through the design of a convergence network module that converges them, we made it possible to selectively learn more meaningful information among the two dimensions. When using each single network, higher performance could be performed, and objects requiring high image resolution and objects requiring high spatial recognition of point clouds could be supplementally trained to improve performance. Fourth, we proceed with point cloud processing through the Transformer structure, which has been proposed in natural language processing and is currently being actively studied. The Transformer structure focuses on the attention structure, and shows high performance in current image processing and point-based point cloud processing structures. We improve the performance through the advantage of local feature extraction of the spherical projection technique and the self-attention structure of the Transformer. Fifth. We propose a structure that can be operated in real time in an outdoor road environment by lightening the above attention technique. We propose a deep learning structure for mobile computing by proposing a lightweight vector attention technique and spherical position encoding.
I. 서 론 11.1 연구의 배경 및 목적 1II. 점 기반 딥러닝을 이용한 점군 입력 특성에 따른 학습 성능 및 일반화 평가 42.1 연구 개요 42.2 관련 연구 52.3 실험 설계 52.4 실험 결과 6III. 이미지 딥러닝과 카메라 파라미터를 이용한 실내 점군 분할 103.1 연구 개요 103.2 관련 연구 103.3 제안 방법 133.4 실험 결과 17IV. 다차원 점군 융합 딥러닝 구조 204.1 연구 개요 204.2 관련 연구 204.3 제안 방법 224.4 실험 결과 26V. Transformer 기법을 사용한 실내 구형 투사 점군 분할 325.1 연구 개요 325.2 관련 연구 325.3 제안 방법 355.4 실험 결과 36VI. 경량화 Transformer 기법을 사용한 실외 도로 환경 투사 점군 분할 396.1 연구 개요 396.2 관련 연구 396.3 제안 방법 416.4 실험 결과 44VII. 결론 49