ROI(Region Of Interest)기반의 차등적 이미지 압축에 관한 연구

doi:10.6109/jkiice.2014.18.3.679

OA학술지
Journal of the Korea Institute of Information and Communication Engineering

ROI(Region Of Interest)기반의 차등적 이미지 압축에 관한 연구 The Study about the Differential compression based on the ROI(Region Of Interest)

DOI : 10.6109/jkiice.2014.18.3.679
Publish: Journal of the Korea Institute of Information and Communication Engineering Volume 18, Issue3, p679~686, 31 March 2014

ABSTRACT

과거에 비해 현재는 네트워크를 통해서 수없이 많은 이미지와 영상을 많은 사용자들이 공유하고 있다. 이러한 연유로 이미지 또는 영상의 압축에 대해서 많은 연구들이 진행되어지고 있다. 그 중에서도 특정한 목적을 위해 이미지의 특정영역에 관해서만 관심을 갖는 경우가 존재한다. 예를 들어 ATM과 같이 배경보다는 사람의 얼굴을 중요시 여기는 기기에서는 관심영역을 설정하여 압축하는 방법이 중요시 되고 있다. 따라서, 본 연구에서는 한 이미지 내에서 관심영역과 비관심영역을 구분하고, 관심영역에 대해서는 높은 퀄리티를 유지하되 비 관심영역에 대해서는 낮은 퀄리티로 압축하여 사용자가 의도하는 관심도를 고려할 수 있도록 새로운 압축방법을 제시한다. 인간 시각체계는 어두운 영역에서보다는 밝은 영역에서 밝기 변화의 민감도가 낮다는 특성과 이미지 압축 시 사용되는 블록의 특성인 표준편차를 이용하여 새로운 관심영역을 정의하여 사용한다. 마지막으로 제시된 방법을 JPEG을 변형하여 실험해봄으로써 검증하였다.

Recently, users can get countless images and videos by network. So, the compression technology of image and video is researched more and more. However, the situation which is the interested range of the image is occurred. For instance, since the region of face is more important than background, the image compression technology bases on the region of interest (ROI) is necessary, in the ATM environment. In this research, given the human visual system, which are not sensitive to illumination variations at very dark and light regions of image, we calculate the standard deviation of block and use this value to define the ROI. In encoding process, the relatively high quality can be obtained at the ROI and the relatively low quality can be obtained at the non ROI. In proposed scheme, the feature which is the encoding process according to subjectively image quality can be demonstrated. Finally, this proposed scheme is applied to JPEG standard. The experimental results demonstrate that proposed scheme can achieve better image quality at the high compression ratio.

KEYWORD

관심영역 , 비관심영역 , JPEG , 이미지 압축

본문

Collapse all

Ⅰ. 서 론

이미지를 사용하는 영상처리 시스템이나 단순한 이미지 처리 시스템에서는 압축된 데이터를 저장하거나 원격지로 전송하는 것이 가장 큰 기능이다. 따라서 압축된 데이터의 크기가 얼마나 작은 사이즈로 원래의 데이터를 표현할 수 있는가가 매우 중요하다. 현재 많은 디지털 이미지나 영상은 DCT (Discrete Cosine Transform)기반의 압축된 형태로 저장되어 전송되고 있다. 이 DCT기반의 가장 대표적인 방법이 JPEG와 MPEG 방식이다.

일반적인 JPEG방식은 이미지의 전체 영역에 대해서 동일한 압축률을 사용하여 압축한다. 또한 이미지에 ROI(Region Of Interest)를 설정하여 관심영역과 비 관심영역으로 구분하고 이에 대해서 차등적으로 압축하는 방법에 대한 연구가 활발히 진행 중이다. 하지만 이 방법은 이미지의 패턴[1,2]을 이용하거나, 형태정보[3]를 이용하여 ROI를 설정함으로서 계산량이 많다는 단점이 존재한다. 또한 인간의 시각체계 특성을 이용하지 못하고 있다. 그래서 본 연구에서는 너무 어둡거나 밝은 영역에서의 밝기 변화는 쉽게 인지 할 수 없다는 웨버의 법칙과 이미지 블록의 특성을 이용하여 ROI를 설정하고 차등적으로 이미지를 압축하여 비슷한 수준의 압축률에서 관심영역에 대해서 높은 퀄리티를 유지하는 방법을 제시한다.

Ⅱ. 본 론

   2.1. JPEG 압축방법

JPEG 압축은 우선 전체 이미지를 8X8블록으로 구분하고 각각의 블록에 대해서 DCT과정을 거치게 된다. DCT과정은 2차원 공간데이터를 2차원 공간 주파수 정보로 변환하는 과정으로 2차원 행렬의 화소값을 저주파성분에서 고주파성분으로 나누는 과정이다[4]. 영상을 분리하는 이유는 사람의 눈은 고주파 정보보다는 저주파 정보에 더욱 민감하다는 특성을 이용하기 위해서이다.

다음 수식(1)과 수식(2)는 DCT를 위한 수식이다.

다음은 양자화 과정으로 이 과정에서는 DCT계수를 임의의 수로 나누어서 근사치의 정수로 반올림하는 과정을 거치면서 일정 범위의 DCT계수가 하나의 수로 통일되는 현상이 일어나게 된다. 예를 들어 146부터 155까지의 DCT계수들을 10으로 나누게 되면 모두 15라는 수로 통일이 된다.

이처럼 양자화 과정을 거치게 되면 기억해야 할 데이터의 양이 줄어들게 된다. 하지만 그만큼 데이터의 손실이 일어나게 된다. 또한 DCT계수를 나누는 수가 클수록 줄어드는 데이터의 양이 많아지고 데이터의 손실 또한 커지게 된다. 8X8블록이 DCT과정을 거치면 저주파수에서 고주파수까지 변화가 되는데 저주파수일수록 변화를 인지하는 민감도가 높기 때문에 저주파수 부분을 나누는 수는 작은 값을 적용하고 고주파수 부분은 큰 값을 사용하게 된다. 현재 양자화 계수 값으로 ISO에서 실험적으로 결정한 양자화 테이블을 JPEG 표준으로 정하여 사용하고 있다. 또한 JPEG에서는 사람이 휘도 신호보다 색차신호에 덜 민감한 특성을 가지고 있기 때문에 휘도 및 색차신호에 대한 양자화 테이블을 따로 사용하고 있다.

그림 1의 (a)는 색차신호 표준양자화 테이블이며 (b)는 휘도신호 양자화 테이블이다.

[그림 1.] JPEG 표준양자화 테이블

양자화 과정이 끝나고 나면 마지막으로 데이터 전송을 위해 허프만 인코딩[5]을 진행한다. 지그재그 스캔을 통해서 8X8의 2차원 배열을 1차원 배열로 바꾸고 0이 아닌 데이터와 그 전까지의 0의 개수를 바탕으로 테이블을 이용하여 데이터를 부호화 하는 방식을 이용한다. 이때 데이터의 빈도수를 바탕으로 부호화의 길이를 결정하는 가변길이 부호화를 사용함으로써 압축이 이루어진다.

위의 모든 과정을 통하여 압축이 이루어지고 나면 데이터를 저장하거나 혹은 전송하게 된다. 그 후에 위의 과정을 역으로 거치면서 데이터를 복원한다.

사람은 이미지를 볼 때 전체 영역에 대해서 보지 않고 관심 있는 영역 또는 사물영역에 대해서 집중적으로 보게 된다. 하지만 기존의 JPEG압축 방법은 모든 영역에 대해서 동일한 양자화 테이블을 적용하기 때문에 이미지 압축시 사람이 관심을 갖지 않는 영역에 대해서도 동일한 압축률을 적용하여 데이터 크기를 크게 차지하는 문제가 있다.

   2.2. 기존 ROI 정의 방법

ROI압축 방법은 이미지를 압축할 때 관심영역과 비관심영역으로 구분하고 각각의 영역에 대해서 서로 다른 압축률을 이용함으로써 비슷한 수준의 압축률에서도 관심영역에 대해서는 고 퀄리티를 유지할 수 있도록 하는 방법이다.

그림 2에서 (a)는 기존 JPEG압축을 통한 이미지이고, (b)는 ROI영역을 설정하여 압축한 방법이다. 관심영역인 얼굴영역은 높은 퀄리티를 유지하고, 비 관심영역은 낮은 퀄리티를 보여주고 있다.

[그림 2.] JPEG과 ROI 압축이미지 비교

이와 같은 ROI 압축방식은 에지 기반, 임계 값 기반, 그리고 영역 기반으로 구분될 수 있다.

   2.2.1. 에지 기반 기법

이미지에서 객체와 객체 또는 배경과 객체간의 경계를 의미하는 에지를 찾아내고 이 영역을 ROI로 설정하는 기법으로 Sobel, Robert, Prewitt 그리고 Canny 등의 기법들을 이용한다.

소벨(Sobel), 로버트(Robert), 프리윗(Prewitt)기법[6]은 2차 기울기 연산자를 이용하여 윤곽선을 검출하는 방법이다. 2개의 마스크를 이용하여 x축, y축으로 각각 미분하고 이를 통해 에지를 설정한다.

캐니(Canny) 마스크 방식은 윤곽선 검출을 할 때 다른 마스크 연산자를 이용한 응용방식이라고 할 수 있다. 에지 연산을 하기 전에 그림 3과 같은 가우시안 마스크를 이용하여 잡음을 제거한다.

[그림 3.] 가우시안 마스크

   2.2.2. 임계값 기반 기법

임계값을 기반으로 한 이미지 분할 방법은 주어진 이미지에 대해서 히스토그램을 만들어서 적정한 임계값을 설정하여 이미지에서 객체와 배경으로 분할하는 방법이다. 이 방법은 하나의 임계값을 설정하여 분할하는 방법과 다중 임계값을 설정하여 여러 단계로 영역을 분할하는 방법으로 나눌 수 있다. 이 방법은 어떤 값을 임계값으로 설정하느냐가 매우 중요한 요소로 작용한다[7].

   2.2.3. 영역기반 기법

영역기반 기법은 인접한 픽셀들의 밝기, 색상, 질감 등 특성이 유사하다는 것을 바탕으로 인접한 영역들을 그룹화 시키는 방법으로, 영역성장과 클러스터링 방법이 존재한다. 이 방법은 기준이 되는 여러 개의 기준 점을 만들고 이 기준점을 기준으로 유사한 화소들을 군집시키는 방법이다. 이 방법은 초기에 어떤 점을 기준으로 삼을 것인가에 따라서 성능이 좌우된다.

기존의 관심영역 정의 방법은 객체와 배경만을 분리하는데 관심을 가지고 있었다. 하지만 사람은 객체에만 관심을 가지는 것이 아니라 색상의 변화가 많이 일어나는 영역, 패턴이 있는 영역 등에도 관심을 갖는데 이러한 영역들에 대해서 비 관심영역으로 간주하는 문제점을 지니고 있다.

Ⅲ. 새로운 알고리즘 제안

   3.1. 순서도

그림 4는 본 연구에서 제안하는 새로운 압축방법의 순서도이다. 일반적으로 대부분의 과정은 JPEG 압축방법과 동일하다.

[그림 4.] 제안하는 알고리즘 순서도

하지만 이미지를 입력받은 시점에서 콘트라스트 스트레칭을 통해서 명암 대비를 향상시키고, ROI를 설정하기 위해 이미지의 8X8블록의 데이터 수집 과정이 추가 되었다. 그 이후에 DCT 과정이 끝나면 관심영역을 설정하여 관심영역에 따른 차등적인 양자화 테이블을 적용하여 압축하게 된다.

   3.2. 콘트라스트 스트레칭

입력된 영상은 콘트라스트 스트레칭[8] 과정을 거친다. 이 과정은 디지털 영상에서 빛의 세기가 강하거나 약해서 영상의 식별에 어려움을 주는 경우가 발생할 수 있는데 이러한 영상의 명암도 범위를 변경함으로써 화질을 향상할 수 있는 방법 중의 하나이다. 콘트라스트 스트레칭은 원본 이미지의 최소 명암 값과 최대 명암값을 이용하여 이미지 명암의 범위를 늘리는 방법이다. 수식(3)은 콘트라스트 스트레칭을 수행하는 수식으로 이미지의 Gray Level 히스토그램의 범위를 0부터 255의 범위로 늘리게 된다.

여기에서 Low는 이미지의 가장 낮은 명암 값, High는 가장 높은 명암 값, Old Pixel은 현재 위치의 명암 값이다. 이 과정을 거치게 되면 그림 5.의 (a)인 원본 이미지가 (b)와 같이 화질이 향상된다.

[그림 5.] 원본과 콘트라스트 스트레칭된 이미지

   3.3. 새로운 ROI영역 설정 방법

인간의 시각은 빛의 세기에 대하여 비선형적 반응 특성을 나타낸다. 또한 공간 주파수의 모든 성분에 동일한 반응을 보이는 것이 아니라 특정 주파수영역에 대해서는 더 민감하게 반응 한다는 특징인 웨버의 법칙[9]으로 덜 민감한 영역에 대해서는 NON-ROI영역으로 설정하고 민감한 영역에 대해서는 ROI영역으로 설정하여 효율적인 부호화를 할 수 있다. 즉 빛의 세기가 너무 어둡거나 너무 밝은 곳에 대해서는 밝기의 변화를 쉽게 인지 할 수 없다는 것을 이용한 휘도 마스크를 적용 하고자 한다.

그림 6에서 I는 화소 값으로 화소 값이 작은 일정 구간에서는 화소 값의 변화를 느낄 수 있는 ΔI의 값이 크다는 것을 알 수 있다. 또한 화소 값이 큰 구간에서도 ΔI의 값이 크게 나타나고 있다. 이를 바탕으로 하여 설정한 ROI영역은 그림 7과 같다.

[그림 6.] 웨버(Weber)의 법칙

[그림 7.] 빛의 밝기에 따른 ROI

또한 기존의 ROI를 설정하는데 있어서는 이미지에 패턴을 이용하거나, 형태정보를 이용하여 설정하였다. 하지만 DCT와 양자화 등에 사용되는 기본 단위인 8X8 블록에 대해서는 전혀 고려되고 있지 않았다. 그래서 본 연구에서는 웨버의 법칙을 이용하여 설정한 영역에 8X8블록의 명암에 대한 표준편차를 구하고 전체 블록의 표준편차의 평균보다 작은 영역을 비 관심영역으로 설정하였다.

그림 8은 웨버의 법칙과 8X8 블록의 표준편차를 이용하여 재설정된 ROI영역을 보여주고 있다.

[그림 8.] 8×8 블록 명암의 표준편차에 따른 ROI

그림 9의 (a)는 원본인 akiyo 영상이고 (b)는 이미지에서 너무 밝은 영역의 임계값은 220이상의 값으로 설정하고, 너무 어두운 영역의 임계값은 30이하로 설정하여 웨버의 법칙에 딸 비 관심영역을 지운 것이다. 여기에서 어두운 영역 임계값으로 적용한 30은 전체 256단계 중에서 10%에 해당 하는 값으로 정의하였다.

[그림 9.] 원본과 웨버의 법칙을 적용한 이미지

그리고 웨버의 법칙과 더불어 추가적으로 8X8블록에 특성을 이용하여 추가하면 그림 10과 같다.

[그림 10.] 8×8 블록

다시 말해서, 그림 10의 결과는 8X8블록내의 표준편차가 작으면 비 관심영역으로 선택하는 방법으로 이미지에서 중요한 객체일지라도 객체 내의 픽셀 값들이 모두 동일하거나 편차가 작다면 이 영역은 변화가 많지않는 영역, 즉 비 관심영역으로 설정한 것이다.

   3.4. 관심영역과 비 관심영역에서의 차등적 압축

DCT 결과 값에 양자화 테이블을 적용하여 압축을 할 때 새롭게 정의한 관심영역과 비 관심영역 영역에 대해서 서로 다른 양자화 테이블을 적용함으로써 저용량이면서 고 퀄리티를 유지할 수 있는 이미지 압축 및 복원을 제안하고자 한다. 8X8블록에 JPEG 양자화 테이블을 적용할 때 어느 정도의 압축률을 적용할 것인가에 따라서 양자화 테이블에 양자화 크기를 곱하고, 테이블 값을 변경하여 사용한다. 즉, ROI와 NON-ROI 영역에 서로 다른 양자화 크기를 곱하므로 써 차등적으로 압축을 하는 것이다. 이와 같이 임계값에 따른 차등적 압축방식은 수식(4)에 보여주고 있다.

Ⅳ. 실험 및 결과

본 절에서는 새롭게 정의한 관심영역을 활용하여 이미지를 압축하고 복원하였으며, 기존의 JPEG 압축방식과 비교 분석하였다. 세부적으로는 기존의 방식을 이용한 JPEG 이미지와 제안한 방법을 이용한 이미지 전체 영역의 PSNR과 관심영역의 PSNR을 비교하여 분석하였다.

이 실험에서는 웨버의 법칙을 적용하기 위하여 두 개의 임계값을 설정하였는데, 이 값은 30과 220이다. 또한 관심영역이 중요하지만 비 관심영역과 너무 큰 차이로 압축을 하면 다양한 왜곡이 발생할 수 있기 때문에 일반 압축의 PSNR값과 2db이하의 차이가 나도록 양자화 크기를 관심영역에 대해서는 α값으로 -5, 비 관심영역에 대해서는 α값으로 +5를 설정하였다. 실험에 사용된 영상은 현재 JPEG 표준으로 사용되고 있는 23개의 영상이며, 이영상의 공간 복잡도를 구하고 분류하고 실험하였다. 표 1은 영상의 공간 복잡도를 구한 표이다.

[표 1.] 표준 영상의 복잡도

표준 영상의 복잡도

그림 11의 (a)는 기존 JPEG 이미지와 새롭게 제안한 방법으로 압축한 전체 이미지의 PSNR을 비교한 그래프 이고, (b)는 관심영역에 대한 PSNR을 비교한 그래프이다.

[그림 11.] 기존 이미지와 제안된 이미지의 PSNR 비교

그림 12의 (a)는 일반적인 JPEG 방식으로 압축하여 복원한 것이며, (b)는 제안된 방식으로 압축하여 복원한 이미지이다. 두 이미지 중 새로운 방식의 이미지가 더 선명한 것을 볼 수 있다.

[그림 12.] 기존방식과 제안된 방식의 이미지 비교

그림 13 세밀한 비교분석을 위해 확대한 이미지이며, (a)는 JPEG방식으로 압축하여 복원한 영상의 얼굴 영역이고, (b)는 제안된 방식으로 압축하여 복원한 영상의 얼굴 영역이다. 두 이미지를 비교하였을 때 눈과 코, 입, 앞머리 등의 영역에서 화질이 좋게 나오는 것을 확인할 수 있다. JPEG표준으로 사용되고 있는 23개의 영상에 대해서 실험한 결과, 전체영역에 대한 PSNR은 약 2db이하의 차이가 있으며, 관심영역은 약 2∼5db의 차이가 나는 것을 확인하였다.

[그림 13.] 기존방식과 제안된 방식의 얼굴영역 비교

Ⅴ. 결 론

제안한 방법은 이미지를 압축하기 전에 인간 시각체계의 특징인 너무 밝거나 너무 어두운 경우 사물을 인식하기 힘들다는 웨버의 법칙을 적용하였으며 이미지 8X8블록의 표준편차를 이용하여 단순한 블록과 복잡한 블록으로 분리하고 이를 바탕으로 관심영역을 설정하여 이 영역에 대해서는 낮은 압축률을 적용하고 비 관심영역에 대해서는 높은 압축률을 적용함으로써 비슷한 수준의 압축률일 경우 전체적인 퀄리티는 떨어지더라도 관심영역에 대해서는 높은 퀄리티를 유지할 수 있는 방법이다. 추가적으로, 일반적으로 다양한 패턴을 이미지의 블록에 적용함으로서 관심영역을 추출하는 방법에 비하여 계산이 단순하다는 장점을 가지고 있다. 또한 DCT를 기반으로 한 방법이기 때문에 DCT 기반의 영상 압축인 MPEG, H.26X등에서도 적용할 수 있다.

참고문헌

1. Jeon S. D. 2008 “A Study on the Adaptive Image Enhancement in the DCT-based Compression Domain using Retinex Theory,” Master's dissertation
2. Kang J. H., Seo Y. G. 2011 “Fast Dynamic ROI Coding using the Mask Patterns in JPEG2000,” [Journal of Information Processing Systems] Vol.18B P.349-354
3. Kim G. M. 2010 “A Study on the JPEG Compression using ROI Classification,” Master's dissertation
4. Seo D. S. 2005 “Comparative Study of the Still Image Compress -ion Algorithm Using DCT and FFT,” Master's dissertation
5. Park H., Yim J. S., Kim B. H., Choi J. Y., Hon S. H. 1993 “A Study on the Huffman Coding Architecture for Image Compression and Decompression,”
6. Vincent O. R., Folorunso O. 2009 "A descriptive algorithm for sobel image edge detection," [Proceedings of Informing Science & IT Education Conference (InSITE)]
7. Ahmadi Majid, Sid-Ahmed M. A. 2006 "An Edge Based Thresholding Method,"
8. Hwang J. S. 2009 “An Imaage Contrast Enhancement by using Modified Histogram Equalization Method,” Master's dissertation
9. Kang J. H., Seo Y. G. 1993 “A Study on the DCT Image Coding Considering Weber's law,” [The Journal of Korea Information and Communications Society] Vol.18 P.663-674