최근 가상이나 추상을 의미하는 메타(Meta)와 현실 세계를 의미하는 유니버스(Universe)의 합성어인 메타버스(Metaverse) 기술이 많은 각광을 받고 있다. 메타버스는 가상과 현실이 상호작용하고, 그 속에서 많은 사람들이 사회, 경제, 문화 활동을 하면서 가치를 창출하는 세상을 의미한다. 이를 통해 일과 여가 활동을 시공간의 제약없이 메타버스에서 효과적으로 경험할 수 있다. 메타버스를 이루는 핵심 기술은 가상현실(Virtual reality, VR)과 증강현실(Augmented reality, AR) 기술로써, 특히 증강현실은 실제 환경을 바탕으로 알맞은 위치에 가상의 정보를 증강하여 많은 분야에서 조립, 유지보수, 훈련, 원격 협업 등의 다양한 과업 지원 형태로 활용하고 있다. 대부분의 기존 방법은 마커나 센서를 통해 증강할 정보의 위치를 설정하는 마커 기반 증강현실을 활용하고 있다. 하지만 마커 기반 증강현실은 마커를 가리거나 마커가 훼손되었을 경우에 인식이 제대로 되지 않고, 평평한 부분이 없는 복잡한 환경에서는 마커 부착이 어려운 문제점이 존재한다. 이에 따라 마커가 없는 환경에서 과업 지원을 위해 정보를 증강할 위치를 정확하게 파악하여 정보를 가시화할 필요가 있다. 최근에는 딥러닝 기술의 발전으로 영상 내에서 다양한 객체를 정확히 인식하거나 검출하는 딥러닝 기술이 연구되고 있다. 이를 통해 의료 영상 분석이나 제조 불량 검출, 객체의 3D 자세 추정 등의 시간과 비용을 많이 소모하는 작업을 자동으로 빠르고 정확하게 분석할 수 있다. 하지만 객체 분할이나 3D 자세 추정과 같은 복잡한 객체 검출 기법을 학습하기 위한 라벨링(labeling) 작업은 매우 어렵고, 많은 시간과 비용이 필요하다는 문제가 존재한다. 이를 해결하기 위한 비지도 및 자기 지도 학습 기반 딥러닝 기술 또한 필요하다. 본 연구에서는 딥러닝을 통해 2차원 영상에서 다양한 객체를 정확히 검출하는 기술과 모바일 및 웨어러블 기기를 통해 실제 환경에 3차원 정보를 가시화하는 증강현실 기술을 함께 활용한 스마트 과업 지원 연구를 제안하고자 한다. 첫 번째, 제조 및 의료 산업에서 수집한 다양한 데이터 세트를 바탕으로 특정 영역을 분할 생성하는 딥러닝 방법을 제안한다. 두 번째, 다양한 객체를 실시간으로 검출하는 딥러닝 기반 객체 검출 기법을 증강현실에 적용하여 사용자에게 필요한 정보를 효과적으로 제공하는 스마트 과업 지원 시스템을 제안하고자 한다. 마지막으로 2D 영상에서 객체의 3D 자세를 추정하기 위해 3D 자세에 대한 실제 정답 데이터(ground truth)가 없는 데이터 세트로 학습하는 자기 지도 학습 기반 객체의 3D 자세 추정 방법을 제안한다. 또한, 직접 수집한 데이터 세트를 통해 학습 및 평가를 진행하고, 증강현실 환경에 적용하여 다양한 3D 과업 지원 정보를 직관적으로 제공하고자 한다. 제안하는 세 가지 연구 방법에 대한 효과를 확인하기 위해 비교 분석을 실시한 결과, 제안하는 방법이 기존 방법들에 비해 효과적이고 우수한 결과를 도출했다.
Recently, the metaverse, a compound word of Meta which means virtual or abstract and Universe which means the real world, comes into the limelight. The metaverse is a world where many people create value through social, economic, and cultural activities from interaction within both virtual and reality. The core technologies which make up the metaverse are virtual reality (VR) and augmented reality (AR) technologies. Especially, AR can superimpose 3D virtual information in appropriate locations based on the real environment. Thus, AR can be effectively used in various smart task assistance applications, such as assembly, maintenance, training, and remote collaboration. Most of the existing AR applications utilize fiducial markers which set the location of information to be visualized in the real environment. However, marker-based AR applications have inherent problems. They cannot properly recognize objects when the marker is occluded partially, and it is more difficult to attach markers to the real objects with complex geometric shape. Therefore, it is challenging to augment and visualize 3D information on the proper locations in real environment without markers. Recently, deep learning-based detection and segmentation approaches has been conducted to detect and segment various objects accurately in RGB only images. Thus, these approaches can quickly and accurately analyze time-consuming and costly tasks such as medical image analysis, manufacturing defect detection, and 3D pose estimation for AR. However, labeling tasks for object segmentation and 3D object pose estimation are very difficult and require a lot of time and cost. To solve this problem, unsupervised and self-supervised learning-based deep learning approaches are needed. This thesis proposes a new approach to smart task assistance for worker using deep learning-based object detection approaches and mobile and wearable AR technologies. First, this thesis proposes new deep learning-based segmentation methods which can conduct domain-specific segmentation from RGB images accurately and robustly for medical and manufacturing applications. Second, it presents an AR-based smart task assistance method using deep learning-based object detection and segmentation. Finally, it proposes a self-supervised learning-based 3D object pose estimation for AR-based smart task assistance without time-consuming ground truth labeling. An AR-based smart task assistance system was implemented to provide effective and user-centric visualization and interaction for assembly and maintenance tasks. Comparative analyses were conducted and evaluated to confirm the effectiveness and originality of the proposed methods.
1. 서론 1가. 연구 배경 및 필요성 1나. 연구 목적 및 내용 62. 이론적 배경 14가. 인공지능 141) 인공지능의 개념 142) 인공지능 산업의 전망 153) 인공지능의 종류 174) 인공지능 기술의 산업 적용 사례 24나. 증강현실 271) 증강현실의 개념 272) 증강현실 산업의 전망 293) 증강현실의 특징 304) 증강현실의 기술 동향 및 적용 사례 323. 관련 연구 36가. 딥러닝 기반 객체 인식 연구 361) 객체 분류 362) 객체 검출 413) 영상 분할 474) 객체 자세 추정 55나. 가상 및 증강현실을 활용한 정보 제공 및 상호작용 연구 621) 가상현실을 활용한 정보 제공 및 상호작용 연구 632) 증강현실을 활용한 정보 제공 및 상호작용 연구 68다. 딥러닝과 증강현실을 융합한 과업 지원 연구 73라. 기존 연구 요약 및 문제점 제시 764. 제조 및 의료 분야 적용을 위한 딥러닝 기반 영상 분할 기법 80가. 중첩 U-Net을 활용한 표면 결함 영역 분할 801) 표면 결함 영역 분할을 위한 NC-Net 소개 802) NC-Net의 구조 823) 비교 실험 및 논의 87나. Transformer를 활용한 대장 용종 영역 분할 941) 대장 용종 영역 분할을 위한 SwinE-Net 소개 942) SwinE-Net의 구조 973) 비교 실험 및 논의 1005. 딥러닝과 증강현실을 융합한 스마트 과업 지원 107가. 딥러닝 기반 영상 분할 기법을 활용한 3D 클론 객체 생성 1081) 영상 분할 기법을 활용한 3D 클론 객체 생성 소개 1082) 웨어러블 증강현실 기기를 활용한 3D 클론 객체 생성 1103) 핸드 헬드 증강현실 기기를 활용한 3D 클론 객체 생성 1134) 실험 및 논의 117나. 딥러닝 기반 3D 매칭 기법을 활용한 객체 자세 추정 1211) 영상 분할 기법을 활용한 3D 매칭 소개 1212) 3D 매칭 기반 객체 자세 추정 방법 1233) 실험 및 논의 1276. 자기 지도 학습 기반 객체의 3D 자세 추정과 증강현실 기술 응용 133가. 객체의 3D 자세 추정을 위한 딥러닝 모델 설계 및 학습 1341) 제안하는 자기 지도 학습 기반 객체의 3D 자세 추정 방법 개요 1342) 객체의 3D 자세 추정을 위한 딥러닝 모델 구조 1403) 2D-3D 매칭을 활용한 객체의 3D 자세 추정 방법 142나. 성능 개선을 위한 새로운 자기 지도 학습 방법 1451) 객체의 3D 자세 추정을 위한 자기 지도 학습 방법 1452) 실험 및 논의 147다. 증강현실 환경에서의 스마트 과업 지원 응용 1531) 증강현실 기반 스마트 과업 지원 시스템 1532) 디지털 트윈 기반 스마트 로봇 조작 시스템 1543) 웨어러블 증강현실 기기 기반 핸즈 프리 과업 지원 시스템 1567. 결론 159가. 결과 요약 159나. 본 연구의 기여점 161다. 본 연구의 한계점 및 추후 연구 164참고문헌 166Abstract(영문초록) 189