최근 사용자의 생체 신호 정보를 기반으로 사용자 인지향상을 위하여, 상황에 적합한 서비스를 제공하기 위한 인간-컴퓨터/기계 상호작용 (Human computer/machine interaction: HCI/HMI) 시스템이 급격하게 증가하고 있는 추세이다. 이에 많은 연구자들은 컴퓨터 비전, 음성 신호처리, 그리고 인공 지능 기술을 이용하여 사용자에게 적응적 서비스를 제공하는 사용자 중심의 인터페이스 기술을 개발하고 있다. 하지만, 기존 대부분의 인터페이스 시스템은 주어진 환경하에 주어진 임무만을 수행하여 사용자에게 적응적인 서비스가 불가능하며, 오히려 사용자가 인터페이스 시스템 환경에 맞추는 경우가 대부분이다. 이에 최근 연구자들은 사용자에게 적응적 서비스 제공을 위한 HCI/HMI 관점에서 사용자의 의도를 파악하고, 이에 필요한 적응적 서비스를 제공하기 위해 많은 노력을 하고 있는데, 그 중 인지 심리학 분야에서 2008년 Bernard는 사용자의 안구운동(시선) 특징 정보를 분석하여 웹 환경 내에서 사용자 의도를 항행적 의도, 정보적 의도, 교류적 의도인 3가지로 분류하였다. 이에 본 논문에서는 기존의 웹 환경내의 사용자 의도 분류 모델에서 탈피하고, 단순 의도 카테고리 분류가 아닌 복잡한 실 세계 환경 내에서 사용자의 특정 묵시적 시선 검색 의도 탐색을 위하여 사용자 안구운동 분석 및 사용자 정보 인식 기반의 사용자 묵시적 시선 검색 의도 판별 분석 및 탐색 모델을 제안하였다. 본 논문에서 사용자 묵시적 시선 검색 의도를 파악하기 위하여 외부 환경 이해 모델과 사용자 이해 모델을 도입하여 분석하였다. 우선 외부 환경 이해 모델은 사용자가 응시하고 있는 외부 영상으로 생물학 기반의 선택적 주의집중 모델과, 점진적 객체 인지 모델로 구성하였으며, 그리고 사용자의 특성 정보를 고려하기 위하여 다중 생체신호 (시/청각) 정보 기반의 다중-태스크 (이름, 성별, 나이)를 인지할 수 있는 모델이며, 그리고, 사용자 이해 모델은 사용자 안구운동(시선: 응시횟수, 응시시간, 동공크기 동공 기울기 변화)을 분석하여 판별 분석하는 모델로 구성하여, 위 두 요소를 융합 분석 함으로써, 사용자의 묵시적 시선 검색 의도 인지 모델을 모델링 하였다. 본 논문에서 제안하는 사용자 묵시적 시선 검색 의도 인지 모델은 두 가지 모델로 나뉘어 볼 수 있지만, 그 중 사용자 묵시적 시선 검색 의도 인지를 위하여 사용자 이해 모델과 사용자 인증 모델을 주요 모델로 고려하여 제안한다. 그리고 외부 환경 이해 모델로 사용된 선택적 주의집중 모델과, 점진적 사물인지 모델은 기존 다른 연구에서 제안된 방법을 이용하였다. 우선 사용자 정보를 얻기 위하여, 사용자가 누구인지를 판별하기 위하여 다중 생체 (시/청각)정보를 이용한 다중-태스크 (이름, 성별, 나이)를 인지하는 모델을 구현하였다. 그리고 사용자가 어디를 볼 수 있는지에 외부 영상 분석 모델로 2008년 M.Lee가 제안한 생물학 기반의 선택적 주의집중 모델인 상/하향식 통합 돌춤맵 (Bottom-up/Top-down saliency map) 모델을 이용하였으며, 선택된 객체 정보가 어떤 객체 인지를 판별 분석 하기 위한 방법으로 2012년 S. Jeong이 제안한 점진적 객체 학습이 가능한 Hierarchical Generative Model (HGM)을 이용하여 판별 분석하였다. 다음으로 사용자 이해 모델은 사용자의 시선 응시 정보를 이용하여 현재 사용자가 응시하고 있는 영역에 대하여 우선적으로 분석하며, 그리고 앞서 언급한 외부 환경 이해 모델 중 선택적 주의집중 모델로 우선적으로 선택 되어 진 객체 영역과, 그리고 객체 인지모델 정보와 융합하여, 사용자의 시선 정보와, 외부 환경 인지 모델 둘 다에서 선택 된 결합 주의집중(integrated attention) 영역 정보에 대하여, 사용자의 안구운동(시선) 특징 정보인 응시시간(Fixation length), 응시횟수(Fixation count), 동공크기(Pupil size), 동공 기울기 변화(Gradient of pupil size variation)의 특징 정보를 이용하여 사용자 묵시적 시선 검색 의도의 카테고리를 분류하였다. 그리고 사용자 묵시적 의도 발화 시점을 판별하기 위하여 사용자의 동공크기 변화(Pupil size variation)를 고려하여, 사용자의 의도 변화 시점을 찾을 수 있었다. 이와 같이 사람의 안구운동 정보 중 동공크기는 외부 환경변화에 매우 민감하게 반응할 뿐 아니라, 사람의 심리적인 요소 정보를 같이 포함하기에 외부 환경 변화 요인을 제거 하기 위하여, 본 논문에서는 3가지의 동공 기저모델을 제안 하였으며, 적용하였다. 그리고 새롭게 사용자 묵시적 시선 검색 의도의 4가지 의도 지표를 설계하여 제안하였다. 설계한 4가지 의도 지표는 항행적 의도 발생, 정보적 의도 발생, 그리고 정보적 의도 유지, 그리고 정보적 의도 소멸과 같은 4 가지 유형으로 사람의 묵시적 의도를 분류하였다. 여기서 항행적 의도란 주어진 자극영상 내에서 무언가 흥미로운 것을 찾는 행위를 말하며, 이에 반해 정보적 의도는 특정 위치에서 특정 객체는 찾는 행위를 의미한다. 본 연구에서는 사용자 안구운동 패턴과 동공분석 정보 기반으로 서로 다른 묵시적 의도인 항행적 의도, 정보적 의도 발생, 그리고 정보적 의도의 유지와 소멸 사이에서 그 천이를 감지할 수 있는 계층적 SVM (hierarchical support vector machine: H-SVM)을 이용하여 분류 하였다. 다음으로 사용자의 정보적 의도 유지 내에서 사용자가 어떠한 의도인지 의도 탐색 과정을 이어진다. 우선적으로 사용자가 정보적 의도 유지 관점에서 응시하였던 객체인지 아닌지를 판별하여야 하는데 본 논문에서는 사용자가 응시했던 객체에 대하여, 응시시간(FL), 응시횟수(FC), 그리고 동공크기(PS) 정보를 이용하여 SVM 모델을 이용하여, 그 객체를 의도를 가지고 보았는지, 아닌지를 판별 분석하였다. 앞서 언급한 것과 같이 의도를 가지고 응시한 객체에 대해서는, 그 사용자가 어떠한 의도를 가지고 보았는지를 판단하기 위하여, Naive Bayes 확률 모델 방법을 고려하여, 사용자가 어떤 의도인지를 판별 분석하였다. 그리고 본 논문에서는 하나의 객체라 하더라도 다른 객체와의 관계 및 사용자의 상황, 성별 및 특성에 따라서 그 사용자의 의도가 달라 질 수 있는 점을 고려하여 Naive Bayes 모델을 설계할 때 사용자의 성별 및 개인의 특성을 반영할 수 있도록 설계하였다.
Recently, there has been a tremendous increase in human-computer/machine interaction (HCI/HMI) systems, where the goal is to provide an appropriate service to the user at the right time with minimal human input for the human augmented cognition system. To develop an efficient human augmented cognition system based on HCI/HMI, it is important to interpret the user’s implicit intention, which is vague, as well as their explicit intention. In other words, the machines should be able to use the implicit clues or estimations of a user’s “state of mind” in their communications. In cognitive psychology, the implicit clues, which are known as intentions, refer to the thoughts one has before performing an action. According to the theory of the mind, human beings naturally represent, predict, and interpret the intentions expressed explicitly or implicitly by others. Therefore, the human intention recognition is essential for efficient and smooth human-computer interactions. This thesis proposed a model based on eye movement analysis with human-specific information analysis to model the human’s implicit visual search intent in a real-world environment. A framework was proposed based on the endogenous attributes analysis and exogenous attributes analysis regarding a human’s implicit visual search intent process. This study focused on the endogenous attributes analysis for modeling the human implicit visual search intent by eye movement analysis considering the personal characteristics. Eye movement information, such as the fixation count, fixation length, pupil size, and gradient of the pupil size variation, was obtained using an eye-tracker system. The personal characteristics were considered using multi-modal (visual and auditory information) and multi-task (personal name, gender and age) personal identification. In addition, the biological selective attention model, which is an incremental object perception model for exogenous attributes analysis, was used. The effects of external parameters, including the image size and stimuli intensity, on the pupillary response were minimized by the development of a robust baseline model. This model was used to identify the human implicit visual search intention while viewing the real-world environments as the navigational intent or informational intent. The different states of the informational intent, including informational intent generation, informational intent maintenance, and informational intent disappearance, were also identified using the proposed approach. A trained hierarchical support vector machine (H-SVM) identified the transition between the different implicit intentions. In addition, the proposed model classified the human implicit visual search intent in a real-world environment based on integrated attention. The integrated attention could be obtained by analyzing the integration between the endogenous attributes analysis and exogenous attributes analysis model. The endogenous attributes analysis model could be obtained using the human eye gaze information (fixation length, fixation count and pupil size), and the exogenous attributes analysis model can be obtained using the biological selective attention model. This thesis proposed a model to classify the various objects identified into intent and non-intent objects while visualizing a natural scene. An intent object refers to an object that is related to a particular intention, whereas a non-intent object refers to an object that does not possess any relationship corresponding to an intention in the informational intent maintenance state. The SVM classifier was used to classify the non-intent and intent objects in an integrated attention area. Finally, Naive Bayes network and recognition of human-specific information was used to model the human implicit visual search intent.
I.Introduction 1II. Understanding human implicit intention based on eye movement analysis 92.1 Definition of the human implicit visual search intent 92.2 Eye movements and pupillary response for human implicit visual search intent - Literature review 112.2.1 Eyeball movements and their interpretation 132.2.2 Pupillary response and its interpretation 172.3 Measurement of eye movement 19III. Modeling human implicit visual search intent 233.1 Overall structure of proposed model 233.2 Human implicit visual search intent recognition based on eye movement analysis 263.2.1 Applying the baseline model for robust eye movement features 273.2.2 Intent transition detection based on pupillary response 423.2.3 Eye movement analysis to determine human implicit visual search intent 443.3 Using human-specific information through multi-modal and multi-task recognition model 493.3.1 Feature extraction of visual and auditory information 513.3.2 Identification and hierarchical feature classifier for incremental multi-modal multi-task personal identification 623.4 Modeling human implicit visual search intent by analyzing user-specific eye movement information 67IV. Experimental design and results 714.1 Recognition of the human implicit visual search intent by eye movement feature analysis 714.1.1 Experiments design and set up 714.1.2 Detection of human implicit intent transition based on pupillary response analysis 814.1.3 Feature extraction of human eye movement for human visual search intent 844.2 Recognition of multi-modal multi-task personal identification 974.2.1 Performance evaluation of multi-task personal identification based on multi-modal information 974.2.2 Effect of the multi-modal information on the robustness of the multi-task personal identification model 1054.3 Human implicit visual search intent recognition by analyzing user-specific eye movement information 1084.4 Application to a virtual online shopping mall based on real-time human implicit intent recognition 144V. Discussion and conclusion 1495.1 Conclusion 1495.2 Limitations and future research directions 152References 154Summary (In English) 166Summary (In Korean) 168