스마트폰 카메라로 생성한 문서 이미지는 촬영 방법에 따라 일반 스캐너에 비해 회전 왜곡과 원근 왜곡이 발생한다. 본 논문에서는 MSER-b 통해 조명에 영향을 적게 받는 이미지를 생성하고 텍스트 이미지의 특성을 고려한 텍스트 영역 윤곽선 검출 기법을 제안하고 이를 통해 왜곡된 문서 이미지를 보정하여 프린터 품질의 이미지로 복원하였다. 그리고 제안한 기법의 성능 평가를 위해 현재 서비스되고 있는 타사의 제품과 비교하였으며, 다양한 왜곡에 대하여 효과적으로 처리가 가능함을 실험을 통해 보였다.
The smartphone with camera can easily generate an image instead of a scanner. However the document image through a smartphone can have distortions related rotation or perspective. In this paper, we proposed a method to generate the document image in that distortions are reduced from the captured document image through a smartphone. For this, the original document image through a smartphone is preprocessed using the MSER-b technique to reduce the light effect. Then, the text area contour is extracted using the characteristics of the document image. Lastly, rotation or perspective distortions are reduced using the extracted text area contour. For experiments, the proposed method is compared two other products. Through experiments, we show that the distortions within the captured document image through smartphone can be effectively reduced.
카메라를 탑재한 스마트폰이 널리 사용되고 있는 오늘날에는 종이 문서를 디지털 이미지로 변환하는데 접근성이 떨어지는 스캐너보다는 스마트폰의 카메라를 이용하는 사용자가 증가하고 있다. 카메라를 탑재한 스마트폰은 스캐너를 대체하여 편리하게 문서 이미지를 생성할 수 있다. 그러나 스마트폰 카메라로 생성한 문서 이미지는 그림 1과 같이 촬영 방법에 따라 일반 스캐너에 비해 회전 왜곡이 발생하거나 원근 왜곡이 발생한다. 이러한 이미지 왜곡은 촬영자의 노력에 따라 왜곡을 줄일 수 있지만 촬영자의 노력만으로 완전히 해소하기는 매우 어렵다. 또한 목표로 하는 문서 이 외의 다양한 잡음 영상이 이미지에 포함되는 경우도 발생한다.
카메라로부터 캡처된 이미지를 보정하는 연구는 광학 문자 인식(OCR)을 위한 전처리 과정으로 진행되어 왔다. 광학 문자 인식을 위해 카메라 캡처 문서 이미지를 입력받아 이미지의 왜곡을 보정하여 정규화 함으로써 문자의 인식률을 높이는 역할을 수행한다. 이러한 연구는 자동차 번호판, 바코더, QR코더 인식과 같은 특수한 분야에서 특정한 색상의 외곽선이나 위치 패턴을 이용하여 이미지를 보정하는 기법을 활용하고 있다[1]. 그러나 그림 1과 같이 스마트 폰 카메라로 입력된 일반문서 이미지는 특정한 색상의 외곽선이나 위치 패턴 등을 이용할 수 없음으로 직사각형 형태의 정규화 된 이미지로 보정하기 위해서는 추가적인 연구가 필요하다.
오늘날 스마트 폰이나 휴대용 카메라로부터 입력받은 문서 이미지의 직사각형 정규 이미지로의 자동 변환에 대한 요구가 증가하고 있으며, 관련 연구도 진행되고 있다. Jagannathan[2] 등은 카메라로부터 입력받은 왜곡된 문서 이미지를 투영변환(perspective transformat ion)을 통해 직사각형의 정규화된 문서 이미지로 변환하는 방법을 제시하였다. 그러나 투영변화에 필요한 문서의 왜곡정보를 자동으로 찾아내는 방법은 명확하게 제시하지 못하였다. Yin[3,4] 등은 이진화된 문서 이미지를 이용하여 각 텍스트의 수평 라인을 단서로 하여 소멸점(vanishing point)을 검출함으로써 문서의 왜곡정도를 자동으로 탐색하는 기법을 제시하였다. 그러나 사용된 이진화 기법인 Block-Otsu 알고리즘은 조명이 일정하지 못한 카메라 입력 이미지에 대한 이진화 기법의 한계와 잡음 영상을 처리하는 부분에 대한 기법이 없어 대상 문서 이미지 이외에 다른 문서 이미지가 중첩되어 하나의 이미지에 포함되어 있을 경우 문서의 외곽선을 검출하지 못하여 문서를 정규화하는데 있어 한계를 가지고 있다.
이러한 문제를 해결하기 위한 다른 접근 방식은 사용자가 스마트 폰으로 촬영한 문서 이미지에서 문서의 모서리를 사용자가 지정하여 보정하는 수동방식이 있다. 또한 Chen[5]등이 제안한 방법으로 사용자가 스마트 폰의 위치를 조절하여 문서 이미지가 직사각형에 가깝게 조절되었을 때 자동으로 촬영되어 정규화 문서이미지를 캡처하는 반자동 기법이 있다. 그러나 현재 많은 스마트폰 앱에서 채택하고 있는 수동방식의 경우 스마트폰의 작은 화면에서 사용자가 일일이 문서 이미지의 모서리를 지정하는 것은 정밀하지 못할 뿐 아니라 불편한 작업이 되고 있다. 반자동 기법 또한 사용자의 정밀한 카메라 조절 능력을 요구할 뿐 아니라 조명이나 주변의 잡음에 대하여 효과적으로 대처하지 못한다.
본 논문은 스마트 폰을 통해 획득한 문서 이미지를 사용자의 추가적인 작업 없이 자동화된 보정 알고리즘을 통하여 정규화된 문서 이미지를 생성하는 방법을 제안하고 있다. 특히, 스마트 폰 환경에서 발생할 수밖에 없는 불규칙한 조명 환경과 잡음 이미지 등을 처리하여 문서의 여백과 문서를 구분하는 윤곽선을 검출하여 문서를 보정하는 기법을 제안한다.
본 논문에서 제안한 스마트폰 문서 이미지 보정 기법의 전체 과정은 그림 2와 같다. 스마트폰을 이용해 촬영 된 문서 이미지(
스마트폰으로부터 입력된 문서 이미지(
문서 이미지를 보정하기 위해서는 이진 이미지(
(1) 텍스트 영역 수평 윤곽선 검출
그럼4의 (a)는 이진화 단계를 통해 생성된
①
② 각 선분의
③
④ 생성된 텍스트 라인 그룹(
⑤ 2개의 수평 윤곽선 후보
(2) 텍스트 영역 세로 윤곽선 검출
그림4의 (a)에서 보듯이
그림5의 (b)와 같은 텍스트 영역 수직 윤곽선을 검출하는 알고리즘은 다음과 같다.
①
② 수평 윤곽선을 검출하는 알고리즘의 ① - ③ 단계와 유사한 과정을 거쳐 수직 선분 그룹(
③ 생성된
④ 2개의 수직 윤곽선 후보
그림5의 (b)와 같이 수평, 수직 윤곽선이 확정되면 각 윤곽선의 교차점을 이용하여 그림6의 (a)와 같이 텍스트 영역의 윤곽을 나타내는 사각형의 꼭지점 (
본 논문에서는 실험을 위해 OpenCV 2.4에서 제공하는 허프변환 관련 함수와 투시변환 함수를 사용하였다. 실험에서는 경험적 임계값(
그림 7은 현재 스마트 폰에서 서비스되고 있는 다른 제품과 본 논문의 결과를 비교하였다. 비교 프로그램은 앱 스토어를 통해 설치한 스마트폰용 스캔 프로그램으로 윤곽선 검출 기능을 포함한 제품 중에서 비교적 성능이 좋은 두 회사의 제품(A사, B사)을 선택하였다.
그림 7에서 보듯이 A사 제품과 B사 제품은 텍스트 영역의 윤곽선을 정확하게 검출하지 못하는 반면 본 논문에서 제안한 방법은 텍스트 영역의 윤곽선을 정확하게 검출한다.
그림 8은 본 논문에서 제안한 방법을 통해 회전 왜곡 문서 및 원근 왜곡 문서와 보정 결과를 보여준다. 그 결과 본 논문에서 제시한 방법이 스마트폰 촬영 시 발생하는 문서의 왜곡을 효과적으로 처리하고 있음을 확인 할 수 있다. 그림 8의 (b)-(f)의 보정되지 않은 왜곡은 렌즈 왜곡으로 본 논문에서는 처리하지 않았다.
본 논문에서는 스마트폰 촬영을 통해 획득한 문서이미지를 프린트 품질의 이미지로 보정하기 위한 방법을 제시하고 성능을 현재 서비스되고 있는 타사의 제품과 비교하였으며, 다양한 왜곡에 대하여 효과적으로 처리가 가능함을 실험을 통해 보였다.
그러나 본 논문은 객체 기반 이진화 기법인 MSER-b 기법을 사용함으로써 처리시간이 타사의 제품보다 많이 소요되는 단점을 가지고 있다. 향후 이러한 단점을 보완하여 스마트폰을 통해 서비스할 수 있도록 추가 연구가 필요하다.