딥러닝 분석체의 인원 카운팅 성능 향상을 위한 후처리 방안

doi:10.34163/jkits.2023.18.1.009

OA학술지
한국지식정보기술학회 논문지

딥러닝 분석체의 인원 카운팅 성능 향상을 위한 후처리 방안 Post-Processing Method of Deep-Learning Network to Improve People Counting Performance

DOI : 10.34163/jkits.2023.18.1.009
Publish: 한국지식정보기술학회 논문지 Volume 18, Issue1, p81~89, 28 Feb 2023

ABSTRACT

딥러닝 분석체의 인원 카운팅 성능 향상을 위한 후처리 방안

Accurate occupant information in a building is of paramount importance for prompt evacuation in the event of a fire. Accordingly, the establishment of a monitoring system using a thermal imaging sensor is preferred. In this case, the object must be distinguished and analyzed only by the volume of the thermal image area. In this paper, we propose analysis neural network YoloV5 and a post-processing method to supplement its recognition results. In general, neural networks often show overfitting or underfitting depending on the amount and nature of training samples. This phenomenon is due to the dependence of training samples and structural limitations of neural networks. Accordingly, the inference results of neural networks also often lead to unexpected results. In this paper, as a way to improve this, we propose an algorithm that corrects the misrecognized part through an image feature flow-based analysis and an overall system configuration plan. The proposed method analyzes the time series of images and quantifies the differences to correct the volume analysis error using the backtracking method. As a result of the experiment, the time delay due to the additional post-processing was not large, and it was confirmed that the recognition rate and performance improved by 21.28% compared to the existing method.

KEYWORD

Thermal image , Artificial neural network , YoloV5 , Post-processing , Deep learning network , Misrecognition , People counting

본문

Collapse all

1. 서 론

자동 인원 계수를 위하여 설치하는 열화상 카메라(Thermal Imaging Camera)는 물체가 방출하는 적외선 에너지의 상대적인 강도를 감지하고 이를 수치화하여 이미지 형태로 변환하는 장비로 최근 코로나 19 팬데믹(Covid-19 Pandemic)의 영향으로 건물 출입구 등에 설치하는 경우가 늘고 있다. 이러한 열화상 카메라는 출입자의 발열 검사뿐 아니라 감지 영역의 시간별 변화를 추적하면서 부가적으로 재실자의 동선 정보까지 제공할 수 있다. 이러한 정보는 건물 화재 등 비상 시 건물 내 재실자 피난 정보로 활용되어 효과적인 구조를 가능하게 할 수 있다.

열화상 카메라는 CCTV와 같은 CMOS 센서보다 역광이나 조도 변화 등의 빛 간섭에 비교적 자유롭기 때문에 다양한 응용에서 상대적으로 높은 검출률을 기대할 수 있다. 그 응용 중의 하나가 출입구에서 인원수를 자동으로 집계하는 인원 카운팅(피플카운팅:people counting)작업이다, 건물 내로 진입하는 사람과 밖으로 나가는 사람의 수를 자동으로 검출하여 합산하면 빌딩 내 남아 있는 재실자 수를 파악할 수 있고, 이 정보는 화재나 지진 등 재난 시 효과적으로 빌딩을 벗어나는 피난을 도울 수 있다.

본 논문은 열화상 볼륨 분포를 분석하는 데 필요한 신경망 처리에 관한 것으로 딥러닝 구조체 중에서 YoloV5 네트워크를 기준으로 작성하였고 분석 결과의 예외처리를 위한 후처리 방안을 제안하였다. 신경망의 학습은 주어진 샘플에 수렴한 결과이기 때문에 종종 예기치 않은 입력 상황 오류를 보이기도 한다. 이를 해소하고 제품의 실용성 높이기 위해서는 이러한 예외 상황을 효과적으로 검출하고 후처리하는 작업이 필요하다.

본 논문의 구성은 구체적인 후처리 알고리즘을 설명하기에 앞서 관련 연구와 딥러닝 구조체의 열화상 처리 과정을 먼저 설명한다. 다음에 딥러닝 분석 결과의 신뢰성을 판단하고 처리하는 후처리 방안을 이어서 설명한다. 끝으로 제안하는 방식을 실제 현장에 적용하여 얻은 성능 평가 결과를 제시 하도록 한다.

2. 관련 연구

본 논문의 주제인 인원 카운팅(People Counter)은 건물의 통로 혹은 입구를 지나가는 사람의 수를 측정하는 작업을 말하며 현재까지 다양한 센서를 이용한 연구 개발이 있었다. 수동 계측기(Manual Clickers), 적외선 빔 센서(Infrared Beams), 핸드폰 와이파이 추적기(WiFi Trackers)를 이용하기도 하는데, 비교적 단순한 신호 검출 및 처리 과정이라 볼 수 있다. 최근 들어서는 다양한 인원 이동 분석이 가능한 딥러닝 신경망 기반의 적용 연구가 늘고 있다[1-4].

딥러닝 신경망으로 이미지를 분석하기 위하여 CNN(Convolutional Neural Networks), RNN(Recurrent Neural Network,순환신경망), VGG16, Yolo 등 다양한 네트워크 모델이 소개되고 있다[5,2,6,7,8]. 일반적으로 딥러닝 네트워크를 구성하는 노드 수와 계층이 증가하면 모델링 파워도 비례하여 향상하지만 그에 따른 계산량의 증가, 오비피팅(overfitting), 기울기 소실(Gradient Vanishing) 등의 문제도 함께 발생한다[9-11]. 딥러닝 네트워크를 사용하여 피플 카운팅(people counting)을 진행한 연구도 보고되고 있으며, 열화상 흑백 이미지를 대상으로 하거나 RGB 카메라 이미지를 CNN 분석하는 방법을 적용하기도 하였다[9]. 피플카운팅 주된 목적 중의 하나는 미리 정한 구역에 사람의 통행을 정량화하여 상권 밀집도, 재실자 파악 등에 사용하는 것인데 이를 위한 딥러닝 구조체의 다양한 응용 연구가 보고되고 있다[14-16].

본 논문에서 인원 카운팅 목적으로 YOLO 버전 5를 사용하였다. YoloV5 는 영상 분석에 널리 쓰이는 네트워크로 영상에 포함된 물체의 다양한 특징을 발견하고 효과적으로 모델링하는 방안으로 소개되고 있다[12]. YOLO 는 Joseph Redmon 에 의해서 처음 디자인되었으며 CNN 의 성능과 특성을 잘 살린 모델로서 이미지 내 물체 검출, 분류 등에서 좋은 성능을 보여주고 있다[1,13]. YOLO 는 계속적인 버전업 작업이 이어지면서 그 속도와 성능이 향상되고 있고 2020년 Glenn Jocher 에 의해 버전 5 까지 발표되었다[17]. 이모델은 버전 4 가 244MB 인 것에 비하여 가장 작은 버전이 27MB 로 가벼우면서도 높은 정확성과 속도를 갖는다[1]. YOLO 버전 5 는 파이토치(PyTorch) 기반으로 작동하며 기존 버전 보다 인식 속도와 성능이 크게 개선되었다는 평가를 받고 있다.

3. 전체 시스템 구성

본 논문에서 제안하는 후처리 방안은 출입 인원 카운팅을 위한 딥러닝 네트워크의 인식률 향상을 위한 것이다. <그림 1>은 여러 대의 열화상 이미지 센서를 YoloV5 딥러닝 쓰레드(Thread)로 처리하는 처리 과정을 보여준다. 각각의 열화상 센서는 독립적으로 설치 구역의 출입 인원 분석을 진행한다.

[그림 1.] YOLOv5 쓰레드 기반의 전체 시스템 구성

<그림 2>는 열화상 카메라 센서로부터 송신되는 이미지 리스트를 보여준다. 그림에서 보듯이 사람의 움직임은 열발산 영역으로 표시되고 있으며 이 영역의 형태를 YoloV5 딥러닝 분석하여 정확한 인원 수를 예측하는 것인데 종종 딥러닝 분석 결과는 예기치 않은 오류가 포함되기도 한다.

[그림 2.] 열화상 스트림의 예

본 논문은 딥러닝 구조체의 분석 결과를 처리 후에 신뢰성을 점검하고 의심되는 경우로 판명나는 경우 추가적인 인식 개선작업을 진행하였다.

<그림 3>은 YoloV5 딥러닝 분석 전과 후의 열화상 볼륨 분포의 변화 과정이다. ⓐ 는 출입이 없는 상태의 열화상 카메라로 촬영한 배경 이미지를 나타낸다. ⓐ 는 분석 과정의 배경 이미지이며 실시간입력 이미지 ⓒ 에서 ⓐ 를 제거하면 변화이미지 ⓓ 를 얻을 수 있다.

배경이미지 외에도 인식에 영향을 줄 수 있는 영역이 존재할 수 있다. 예를 들어 출입문의 강한 햇살이 시간이 지나면서 바닥면을 달구기도 한다, 이러한 영역은 열화상 검출에 영향을 주므로 이를 예외 처리하여야 하며 <그림 3> ⓑ 에 해당한다. ⓔ 는 YoloV5 딥러닝 분석으로 얻은 결과 이미지이다. 본 논문은 이러한 결과 이미지의 타당성을 분석 후처리 과정을 통하여 검증하는 내용에 관한 것이다.

[그림 3.] 제안 시스템의 처리 단계

<그림 4>는 <그림 3>의 과정을 센서별 쓰레드 내에서 동작하는 세부 단계로 나누어 설명하고 있다. <그림 3>의 ⓐ 는 <그림 4>의 “Subtract Background”, ⓑ 는 <그림 4>의 “Mask the Obstruction Area”로 표시할 수 있다.

[그림 4.] YoloV5 적용 후 처리

4. 딥러닝 인식 결과의 후처리

영상 분석은 일반적으로 입력 이미지의 정규화(Normalization), 신경망 추론(Inference), 결과치의 개선(Post-processing) 등의 단계로 진행된다. 먼저 첫 단계인 이미지 정규화는 입력시 발생되는 잡음을 제거하고 신경망 네트워크에 보다 신뢰성 있는 입력 데이터를 제공할 수 있다. 이러한 전처리 과정으로 입력 샘플의 다양한 변이를 신경망 학습과 인식 과정 전에 가능한 범위 내에서 걸러내어 인식 정합도를 높이는 것이다. 결국 학습 샘플의 정규화는 이미지 크기, 물체의 위치 변이, 화소값의 범위 등을 학습과 인식에 적당한 형태로 규격화하는 작업이라 할 수 있다.

다음 <그림 5> (a) 는 정규화를 거친 열화상을 나타내며, YoloV5 딥러닝 네트워크의 추론에 의해서 사람별 영역으로 구분된 것이다. YoloV5 은 입력 영상을 네트워크 연산으로 추론하여 각 사람별로 표시한 것이다. <그림 5> (a) 를 보면 통행하는 사람 별 특징을 영역의 볼륨(Volume)으로 나타내고는 있으나 열화상의 특성 상 보다 구체적인 형태 정보, 색상 정보 등을 활용할 수 없어서 인식이 어렵다. <그림 5> 에서 보면 좌편에 사람 통행을 표시하는 영역 볼륨이 표시되고 있고 우편은 사람 모습으로 해석되기 어려운 작은 영역들이 분포하고 있다. 정규화 등의 이미지 전처리를 거치면 이 영역들은 제거된다. 딥러닝 네트워크 연산에서 이러한 의미없는 소영역들은 신경망의 해석을 왜곡시켜 오인식을 생산하는 원인으로 작용한다.

[그림 5.] 열화상 볼륨 분포의 영역 분할

<그림 6> 은 열화상 볼륨의 시간적 변이를 표시한 것이다. 그림에서 영역의 부피는 출입 인원을 천장 위치에서 촬영한 것으로 구별된 영역은 출입 인원 각각을 표시한다. (a)와 (b) 두 예에서 보면 좌편은 t -1 시점인데, 3 개 영역으로 구분되어 있음을 알 수 있다. 두 가지 예에서 우편은 t 시점의 영역 분할 상황인데 좌편과는 다르게 영역의 개수가 2개로 줄어들었음을 알 수 있다. <그림 6>의 t -1, t 시점 영상을 볼 때, 통행하는 사람의 영역 비중의 변화가 크지 않음에도 불구하고 영역 구분이 3 에서 2 로 변화되는 경우에 해당한다. 이 경우는 충분히 신경망의 추론 결과의 오인 가능성을 알 수 있는 조건이다. 본 논문은 영역의 볼륨 분석을 담당하는 분석 네트워크의 추론 결과의 타당성을 <그림 6> 과 같은 상황을 조건식으로 표현하여 후처리하고자 하는 것이다. 결국, t 시점의 이미지 분할 결과를 보정하여 인식 결과를 바로 잡을 수 있다. 이러한 보정의 기준은 t -1 이미지 처리 결과이다.

[그림 6.] 열화상 영역의 시계열 분석

그러므로 제안하는 후처리 방식을 진행하기 위해서는 <그림 7> 과 같이 매번 바로 전 시간의 분석 상황을 저장하고 이를 비교하며 컨벌루션 네트워크 분석 결과의 타당성을 확인해야 한다. 이 과정에서 현재 시점(t ) 결과에 보정이 필요하다고 판단되면, 바로 전(t –1) 영역 분할 정보를 중첩하여 영역 분할을 재시도하거나 현재 결과를 버리고 다음 이미지로 넘어가는 방식으로 오류를 수정한다. <그림 7> 은 정한 임계치를 초과하는 경우 (Threshold Exceeded)에 현재 결과를 무시하고 YoloV5 분석을 다시 진행하는 경우를 설명하고 있다.

[그림 7.] 제안 방식의 후처리 단계

<그림 8> 은 <그림 7>의 (t )와 (t –1) 의 진행이 순조롭다고 판단된 경우(Within Threshold) 의 처리 절차를 설명한다. 이 경우 (t )와 (t –1) 사이의 영역 간의 매칭 관계를 선별해야 하며 영역의 중첩과 위치 정도를 계산하여 최적의 조합을 발견하는 과정이다. <그림 9> 는 <그림 8>의 순서화 과정에 따른 매칭 예를 보여준다.

[그림 8.] 현재와 전 이미지의 영역 정합

[그림 9.] 중첩도에 따른 영역 순서화

5. 인식 및 성능 실험

<그림 10> 은 본 논문의 방식으로 피플 카운팅을 진행한 실제 동작 시스템의 프로그램 화면이다. 화면의 좌측은 건물 내 열화상 카메라가 설치된 장소를 표시하며, 클릭 시 실시간 열화상 볼륨 분포도를 볼 수 있도록 구성되었다. 총 9 곳의 설치 장소와 실시간 입출입 상황을 표시하고 있다. 출입구별 인원 검출과 전체 상황을 종합하여 현재 건물 내 재실하는 인원을 계산하는 방식이다.

[그림 10.] 피플 카운팅 모니터링 프로그램 화면

열화상 카메라 하나 당 <그림 1>과 <그림 2>의 쓰레드가 할당되어 동작한다. 분석 서버는 20 개 수준의 카메라를 감당할 수 있는 컴퓨팅 성능을 갖도록 구성하였다. <그림 11>은 실제 동작 쓰레드 등의 프레임 처리 시간을 측정한 것이다. 프레임당 평균 0.052초가 소요되어 전체 센서의 작동을 실시간으로 충분히 처리할 수 있었다.

[그림 11.] YoloV5 와 YoloV5+후처리 소요 시간 비교

본 논문에서 제안하는 후처리를 사용하지 않고 동작하는 경우 프레임당 0.048 초가 소요되어, 제안하는 후처리 방식이 8.42 % 정도 추가 시간을 더 요구하였다.

이 정도의 증가 수치는 실시간 프레임 처리에 영향을 주지 않는 허용 범위 내였다.

인원 카운팅의 정확도를 살펴보면, 후처리 없이 YoloV5 만 적용한 경우가 73.3 % 이었고 본 논문에서 제안하는 후처리를 적용하면 88.9 % 로 21.28 % 향상된 것을 확인할 수 있었다. <그림 12> 는 인식의 정확도를 비교하는 것으로 정답(Correct Answer)과 실험값(Our Results)를 함께 표시하고 있다. 그림에서 두 그래프의 표시점이 상호 일치하지 않는 부분이 오인식된 부분이다. 이러한 오인식의 주된 원인은 한번에 뭉쳐 들어오는 집단 인식에서 발생하는 것을 확인할 수 있었다. 여기서 오인식은 출입 인원의 유무에 관한 오동작이 아니고 인원수의 판단 오류이다.

[그림 12.] 피플카운팅 정답 그래프 비교

6. 결 론

본 논문은 열화상 카메라의 이미지를 분석 처리하여 인원 카운팅을 위한 딥러닝 네트워크 구축에 관한 것으로 YoloV5 네트워크를 기준으로 작성하였고 신경망의 분석 결과의 예외처리를 위한 후처리 방안을 제안하였다. 신경망의 학습은 학습 샘플의 의존성 및 신경망의 구조적 한계 등으로 오비피팅 혹은 언더피팅의 부작용을 수반한다. 결국 신경망의 계산 결과가 실제와 불일치하는 일이 발생하기 마련인데, 후처리는 이를 보완하기 위한 것이다.

본 논문에서는 딥러닝 네트워크 방식으로 계산하여 얻은 분석 정보의 신뢰도를 정량화하는 방식과 이를 개선하는 절차를 설명하였다. 정량화 방식으로 열화상 볼륨 분포의 흐름 기반 분석을 설명하였고, 신경망 추론 결과의 신뢰도를 파악하는 방식으로 프레임 순서 기반의 영역 변화율을 측정하였다. 영역 변화율이 프레임 시계열 영역의 전체 정보와 불일치하는 경우를 발견하고 이를 바로잡는 방식이다.

실제 적용 실험에서 실시간으로 열화상 처리에 문제가 없었으며 제안하는 후처리 방식을 적용하는 경우 21.28 % 인식률 향상을 얻을 수 있었다. 추후 연구로는 열화상 볼륨 정보뿐만 아니라 RGB 카메라 등 다른 성격의 센싱 정보까지 결합하는 후처리 방식의 고민이 필요하다고 본다.

참고문헌

1. Jocher G., Stoken A., Borovec J., STAN Christopher, Changyu L. 2021 Ultralytics/yolov5: v4.0 - nn.SiLU() activations, weights & biases logging
2. Lee K., Lee J., Lee J., Hwang S., Lee S. 2017 Brightness-based convolutional neural network for thermal image enhancement [IEEE Access] Vol.5 P.26867-26879
3. Nogueira V., Oliveira H., Silva J. A., Vieira T., Oliveira K. 2019 RetailNet: A deep learning approach for people counting and hot spots detection in retail stores [32nd SIBGRAPI Conference on Graphics, Patterns and Images]
4. 2020 CNN Architectures: LeNet, AlexNet, VGG, GoogLeNet, ResNet and more
5. Desai K., Parikh S., Patel K., Bide P., Ghane S., Gunjan V., Suganthan P., Haase J., Kumar A., Raman B. 2020 Survey of object detection algorithms and techniques
6. Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A. 2014 Going deeper with convolutions
7. 2020 https://en.wikipedia.org/wiki/ImageNet
8. 2018 GG16 ？ Convolutional Network for Classification and Detection
9. Thom M., Palm G. 2013 Sparse activity and sparse connectivity in supervised learning [Journal of Machine Learning Research] Vol.14 P.1091-1114
10. Dey S., Huang K., Beerel P. A., Chugg K. M. 2019 Characterizing sparse connectivity patterns in neural networks
11. 2022 https://en.wikipedia.org/wiki/Overfitting
12. 2022 Yolov5 for Fire Detection
13. Simonyan K., Zisserman A. 2015 Very deep convolutional networks for large-scale image recognition
14. Krizhevsky A., Sutskever I., Hinton G. 2012 Imagenet classification with deep convolutional neural networks [Advances in neural information processing systems] P.1097-1105
15. Rho S. Y., Kwak K. S. 2021 A study on the YOLO-based moth larva detection model [Journal of Knowledge Information Technology and Systems(JKITS)] Vol.16 P.1185-1193
16. Son S., Suh S. 2022 Deep learning based fire And smoke detection systems in camera [Journal of Knowledge Information Technology and Systems(JKITS)] Vol.17 P.1251-1258
17. Redmon J., Divvala S., Girshick R., Farhadi A. 2016 You only look once: Unified, real-time object detection [Proceedings of IEEE Conference on Computer Vision and Pattern Recognition] P.779-788