본 논문은 얼굴의 표정 인식을 이용한 위험상황 인지 알고리즘을 제안한다. 제안방법은 인간의 다양한 감정 표정 중 위험상황을 인지하기 위한 표정인 놀람과 공포의 표정을 인식한다. 제안방법은 먼저 얼굴 영역을 추출하고 검출된 얼굴 영역으로부터 눈 영역과 입술 영역을 추출한다. 각 영역에 유니폼 LBP 방법을 적용하여 표정을 판별하고 위험 상황을 인식한다. 제안방법은 표정인식을 위해 사용되는 Cohn-Kanade 데이터베이스 영상을 대상으로 성능을 평가하였다. 이 데이터베이스는 사람의 기본표정인 웃는 표정, 슬픈 표정, 놀란 표정, 화난 표정, 역거운 표정, 공포 표정 등 6가지의 표정영상을 포함하고 있다. 그 결과 표정 인식에 좋은 결과를 보였으며 이를 이용하여 위험상황을 잘 판별하였다.
This paper proposes an algorithm for risk situation recognition using facial expression. The proposed method recognitions the surprise and fear expression among human’s various emotional expression for recognizing risk situation. The proposed method firstly extracts the facial region from input, detects eye region and lip region from the extracted face. And then, the method applies Uniform LBP to each region, discriminates facial expression, and recognizes risk situation. The proposed method is evaluated for Cohn-Kanade database image to recognize facial expression . The DB has 6 kinds of facial expressions of human being that are basic facial expressions such as smile, sadness, surprise, anger, disgust, and fear expression. The proposed method produces good results of facial expression and discriminates risk situation well.
산업계의 과학기술분야의 빠르고 다양한 발전으로 머신분야, 로봇분야, 게임분야, 유비쿼터스 및 홈네트워크 분야 등 다양한 분야의 기술들이 발전되어 왔다. 요즘 사회적, 개인적인 위험에 대한 대처방안 등에 관한 관심이 대두되며 이에 대한 요구에 적합한 감시시스 템이 보편화 되었고 기술의 진보로 유비쿼터스 환경과 연계하여 지능형 홈 네트워크 시스템을 구축하고 이를 이용하여 보호가 필요한 유아, 독거노인, 장애인 등의 감시와 모니터링에 활용되고 있다[1].
지능형 영상 감시 시스템은 감시카메라로 입력되는 영상정보를 디지털화하여 관심 객체의 위치와 패턴을 분석하여 상황을 인지하고 대응조치를 취할 수 있도록 하는 기술로 지능형 시스템의 감시와 모니터링에 적합하다. 이것은 객체 또는 물체가 물리적인 보안 정책에 해당하는 이벤트를 발생시켰는지를 판단 및 분석하여 관리자에게 정보를 제공하거나 데이터 및 이벤트 내용을 저장한 후 사후 예방 관리 및 검색의 효율성을 극대화 시킬 수 있는 기술로서 영상분석을 통해 인간의 행동 패턴을 분석해 다양한 정보를 얻어 다양한 분야에 적용이 가능하다[2,3].
인간의 행동인식 분야는 HCI 분야에서 중요한 관심 분야로 대두되고 있으며 또한 이와 관련되어 영상, 오디오, 생체 신호 등을 이용하여 인간의 감정을 인식하는 분야로도 연구가 확장되고 있다[4]. 특히 감정인식 기술 중 영상을 이용한 분야는 실시간 얼굴 표정 인식 및 분석 기술이 주요 관심사로 부각되고 있다. 따라서 영상을 이용한 감정 인식 기술을 이용하여 영상에서 사람의 얼굴 표정과 몸의 동작을 감지함으로써 상황을 인지하고 판단하여 대처하는 서비스의 개발에 적용하는 것도 유용한데 아직은 그 기술이 미비하다. 특히 얼굴 표정은 내적인 정서상태가 근육의 움직임으로 표현된 것으로, 얼굴 표면 구조의 물리적 변화를 통해 만들어진 표정을 통해 기쁨, 슬픔, 분노 등의 내적인 정서상태가 타인에게 전달된다. 표정 인식은 컴퓨터 성능의 향상에 따라 저렴한 비용으로 빠른 처리가 가능할 뿐만 아니라 얼굴 검출, 얼굴 추적, 얼굴 인식 등과 같은 영역에서의 연구와 밀접한 연관성이 존재하여 상호보완적으로 연구 수행을 향상시킬 수 있고 효과적인 인간과 컴퓨터의 상호 작용을 위한 입력 모드로 관심을 모으고있어 활발히 연구되고 있다[5].
본 논문에서는 감시와 보호가 필요한 독거노인, 유아, 장애인등의 위험상황을 인식, 판별하기 위하여 사람의 표정을 인식하는 방법을 제안한다. 제안방법은 인간의 행복, 기쁨, 웃음, 무표정, 화남, 공포, 놀람 등 다양한 표정 중 위험상황이 발생할 때 사람이 느끼는 공포와 놀람의 감정을 반영한 공포와 놀람의 표정을 인식한다. 이를 위하여 눈 영역과 입술 영역을 추출하고 각 영역의 특징정보를 이용하여 놀람과 공포의 표정을 인식하며 이 정보를 토대로 위험상황을 판별한다. 제안방법은 표정인식을 위해 사용되는 다수의 영상에서 실험되었으며 분석된다. 2장에서는 제안방법인 위험상황 인지를 위한 표정인식방법에 대하여 설명하고 3장에서는 제안방법의 성능을 분석하며 4장은 결론을 기술한다.
그림 1은 제안 알고리즘의 흐름도로 제안 알고리즘은 인간이 가질 수 있는 기쁨, 슬픔, 놀람, 화남, 혐오, 공포, 무표정 등의 다양한 표정 중 위험 상황에 나타날 수 있는 표정인 공포와 놀람의 표정을 인식하여 위험상황을 인식한다.
표정인식을 위한 입술과 눈 검출은 기하학적 정보를 이용한다. 먼저 입력영상에서 Harr-like기법을 이용하여 얼굴을 검출한다. 검출된 얼굴영역에서 입술영역 및 눈 영역을 검출하기 위하여 얼굴영역을 6분할하였다. 이것은 얼굴 인식에 표준으로 사용되는 다수의 얼굴 DB를 중심으로 동서양인의 얼굴 샘플을 추출하여 얼굴영역을 4, 6, 7, 8 영역으로 분할 한 후 입술영역과 눈 영역을 검출하였을 때 오차가 제일 적게 나타난 영역분할 방법이다. 사람의 입술은 그림 2의 (a) 와 같이 얼굴의 하단에 위치하므로 검출된 얼굴 영역을 수직방향으로 6분할하여 그 중 제일 하위 두 부분을 입술 검출 후보 영역으로 설정하였다. 또한 눈 영역은 얼굴의 상단에 위치하므로 얼굴 영역을 수직방향으로 6분할하여 그림 2의 (b) 와 같이 상위 3개의 영역을 2영역씩 결합한 후 두 영역의 고주파 성분을 검출하여 고주파 부분의 변화량이 많은 영역을 눈 검출 후보 영역으로 설정하였다.
입술 영역 검출은 입술 후보 영역 내에서 다음과 같은 과정으로 입술 영역을 검출한다. 입술영역은 에지가 존재하나 얼굴 영역은 평탄한 저주파 영역이므로 x, y 축 기준을 중심으로 고주파 성분의 변화량을 측정하여 입술 영역을 검출한다.
이를 위해 입술 검출 후보 영역을 4⨉8 영역으로 분할한 후 각 축의 2분점을 기준으로 하여 변화량이 존재하지 않는 영역을 제외하고 입술영역 으로 설정하였다. 표정인식을 위한 눈 영역은 사람의 두 눈을 다 사용하지 않고 한쪽 눈을 선택하여 사용한다. 따라서 눈 영역 검출은 눈 후보 영역을 2분한 후 두 눈 중 왼쪽 눈 부분을 선택하였다. 입 영역과 유사하게 눈 영역은 에지 등이 존재하며 얼굴영역은 저주파 영역이므로 그림 3과 같이 4⨉6으로 분할 한 후 고주파 성분의 변화량을 이용하여 고주파 성분이 많은 부분을 눈 영역으로 설정하였다.
본 논문에서는 인간의 다양한 감정 중 위험 상황을 위한 감정으로 놀람과 공포를 선택하고 표정을 인식한다. 표정을 인식하기 위하여 제안 방법은 유니폼 LBP [6,7]를 적용하였다.
LBP는 원래 영상의 텍스쳐를 분류하기 위한 용도로 개발된 특징인데 이후 얼굴인식과 같은 다른 영상인식 응용에도 활용되고 있다. LBP(Local Binary Pattern)는 영상의 모든 픽셀에 대해 계산되는 값으로서 각 픽셀의 주변 3 ×3 영역의 상대적인 밝기 변화를 2진수로 코딩한 인덱스 값이다. 즉 중앙 픽셀보다 밝으면 1, 어두우면 0으로 코딩한 후 이 값들을 연결한 이진수를 로컬 텍스쳐에 대한 인덱스로 활용한다. 이와 같이 각 픽셀들에 대해 계산된 인덱스 값에 대해 히스토그램을 구한 후 이히스토그램을 해당 영상 영역에 대한 텍스쳐 모델로 활용한다. 유니폼 LBP는 LBP로 인코딩된 2진 코드에서 2번 이하의 비트 변화를 가지는 코드를 유니폼 패턴으로 정하여 이 유니폼 패턴을 0부터 57까지 차례로 설정하였고, 3번 이상의 비트 변화를 가지는 코드는 모두 58로 설정하여 LBP의 256차원이나 되는 특징을 59차원으로 감소시킨다. 유니폼 LBP는 영상의 질감을 잘 나타낼 수있는 장점이 있으므로 표정의 특징을 표현하는데 뛰어나다. 그림 5는 영상의 화소 값에서 LBP 코드와 유니폼 LBP로이 변환과정을 보여준다.
눈과 입의 표정을 인식하기 위해 추출된 입 영역을 64X96으로 정규화 하여 4X6블럭에 대해 유니폼 LBP히스토그램을 생성하여 59차원의 유니폼 LBP 히스토그램으로 표현하였다. 또한 눈 영역은 64X64로 정규화 하여 4X4블럭에 대한 유니폼 LBP히스토그램을 생성 하였다. 이와 같이 블록별 특징을 하나의 벡터로 연결하여 block×59차원의 히스토그램으로 구성하였고 이 히스토그램의 값들을 국소영역의 특징으로 설정하였다.
위험 상황 인식은 먼저 1차적으로 입술영역에서 표정을 인식하고 그 후 눈 영역에서 2차적으로 공포와 놀람의 표정이 인식될 경우 위험 상황으로 판별된다. 이것은 입술로 표정을 인식할 경우 기쁨, 놀람, 공포의 인식 특징이 유사하여 위험상황이 잘못 판단될 수 있으므로 이로 인한 오류를 방지하기 위하여 2차적으로 눈 영역에서 다시 검증한다. 이 결과를 이용하여 표정의 변화를 누적한 후 공포 놀람의 표정이 3회 이상 연속될 경우 위험상황으로 판별한다.
제안방법의 성능을 분석하기 위하여 Cohn-Kanade 데이터베이스를 사용하였다. 시스템은 Intel cpu 2.0GHz, 1G RAM, Visual Studio 2008과 OpenCV 2.1을 이용하여 구현하였다.
제안방법이 공포와 놀람의 표정을 잘 분류하는지를 실험하기 위하여 표정 인식에 많이 사용되는 Cohn-Kanade 데이터베이스를 사용하였다[8]. 이 데이터 베이스는 486개의 시퀀스를 포함하며 각 시퀀스는 무표정에서 해당 표정으로 변화하는 영상들이 담겨 있다. 이 데이터베이스는 기본표정인 6가지 표정들을 담고 있고, 이 6가지 표정들은 웃는 표정, 슬픈 표정, 놀란 표정, 화난 표정, 역겨운 표정, 공포 표정이다. 본 논문에서는 6가지 표정 중 위험상황에 사용되는 공포와 놀람 표정을 분류하였다. 그림 6은 데이터베이스 영상 중 실험에 사용된 일부 영상이며 그림 7은 실험영상의 다양한 표정 영상을 보여준다.
데이터베이스 영상 중 제안방법을 적용하여 얼굴 영역 및 입술과 눈 영역 추출 결과를 그림 8에 나타냈다. 또한 그림 9는 검출된 입술영역을 유니폼 LBP로 표현한 결과를 보여준다.
그림 10과 그림 11은 테스트 영상에 제안 방법을 적용하여 입 영역 및 눈 영역을 추출한 결과를 보여준다.
그림 12는 그림 6의 테스트 영상의 다양한 표정 영상에 제안 방법을 적용하여 공포 및 놀람의 표정을 검출한 결과로, 다양한 표정의 영상 중 공포와 놀람 표정의 영상을 잘 분류하였음을 보여준다.
제안방법의 성능을 평가하기 위해 입, 눈 각각의 특징으로 표정을 인식한 결과와 입과 눈의 방법을 이용하여 표정을 인식한 성능을 측정하였다. 입으로만 공포 및 놀람의 표정을 인식하였을 경우는 평균 87%, 눈으로만 이용하였을 경우는 84.5%, 두 특징을 결합하여 표정을 인식하였을 경우는 평균 93%의 인식률을 보였다. 인식률이 저하된 원인은 조명변화 및 개인차에 의한 특징의 변화 등이다.
제안방법을 이용한 표정인식 결과
본 논문에서는 인간의 표정을 인식하고 위험상황을 판별하는 알고리즘을 제안한다. 제안방법은 인간이 가질 수 있는 기쁨, 슬픔, 놀람, 화남, 혐오, 공포, 무표정 등의 다양한 표정 중 위험 상황에 나타날 수 있는 표정인 공포와 놀람의 표정을 인식하여 위험상황을 인식한다. 공포와 놀람의 표정인식을 위하여 입과 눈의 특징정보를 이용하며 기하학적 정보를 이용하여 눈 영역과 입 영역을 검출한다. 먼저 입 영역을 검출하여 표정을 인식 하고 눈 영역의 정보를 결합하여 위험상황을 판단한다. 표정인식은 유니폼 LBP를 이용하여 입과 눈의 특징을 표현하였으며 연속적으로 3회 이상 동일한 결과가 나올 경우 위험 상황으로 인식하였다. 제안방법은 Cohn-Kanade 데이터 베이스의 영상으로 테스트 하였으며 평균 93%의 인식율을 보였다. 인식율 저하의 원인은 조명 및 개인차에 의한 특징의 오검출로 향후 연구해야할 분야이다.