움직임 벡터 필드의 상관도 향상을 통한 효과적인 MCTF 방법

doi:10.6109/jkiice.2014.18.5.1187

OA학술지
Journal of the Korea Institute of Information and Communication Engineering

움직임 벡터 필드의 상관도 향상을 통한 효과적인 MCTF 방법 Effective MCTF based on Correlation Improvement of Motion Vector Field

DOI : 10.6109/jkiice.2014.18.5.1187
Publish: Journal of the Korea Institute of Information and Communication Engineering Volume 18, Issue5, p1187~1193, 31 May 2014

ABSTRACT

움직임 벡터 필드의 상관도 향상을 통한 효과적인 MCTF 방법

This paper presents an effective motion estimation to improve the performance of the motion compensated temporal filtering (MCTF) which is a core part of the wavelet-based scalable video coding. The proposed scheme makes the motion vector field uniform by the modified median operation and the search strategies using adjacent motion vectors, in order to enhance the pixel connectivity which is significantly relevant to the performance of the MCTF. Moreover, the motion estimation with variable block sizes that reflects the features of frames is introduced for further correlation improvement of the motion vector field. Experimental results illustrate that the proposed method reduces the decomposed energy on the temporal high frequency subband frame up to 30.33% in terms of variance compared to the case of the full search with fixed block sizes.

KEYWORD

움직임 보상 시간적 필터링 , 움직임 예측 , 픽셀 연결성 , 스케일러블 비디오 부호화

본문

Collapse all

Ⅰ. 서 론

최근 다양한 형태의 멀티미디어 기기 및 컨텐츠 기술이 급속히 발전함에 따라 각 응용 형태에 적합하게 컨텐츠를 제공할 수 있는 능력이 효율적인 서비스를 위한 중요한 고려사항이 되고 있다. 비디오 부호화에 있어서 이러한 요구에 적절하게 대응하기 위해 부호화 효율을 주로 고려하는 기존 방법과는 달리, 영상을 부호화하여 비트스트림을 생성하고, 각 응용분야 및 환경에 적합하도록 부분적으로 복호할 수 있는 스케일러블(scalable) 부호화 방식이 주목을 받고 있다. 스케일러블 부호화는 화질, 공간 및 시간 측면의 스케일러빌리티(scalability)를 제공할 수 있는데, 이의 기본적인 개념은 MPEG-2 및 MPEG-4 표준에서 도입되었고[1, 2], 최근 H.264/AVC의 확장판에서 SVC (scalable video coding)의 이름으로 본격적인 표준화가 이루어졌다[3].

SVC 표준에서는 각 스케일러빌리티를 위하여 서로 다른 방법을 이용하므로 전체적인 부호기의 구조가 매우 복잡해지는 단점이 있다. 반면, 그림 1과 같은 일반적 구조를 갖는 웨이블릿(wavelet) 변환 및 움직임 보상시간적 필터링(MCTF; motion-compensated temporal filtering)을 이용한 스케일러블 부호화는 한 번의 부호화로 세 가지 스케일러빌리티를 동시에 제공할 수 있고, 개루프(open loop) 구조이므로 복호과정에서 앞서 복호된 프레임을 이용하지 않아 기존의 폐루프(closed loop) 구조에서 발생하는 프레임간 에러 전파 문제 및 송수신기 사이의 파라미터 불일치 문제 등이 발생하지 않는 장점이 있다[4-7].

[그림 1.] MCTF 기반 스케일러블 부호화의 일반적 구조

이때, MCTF의 출력이 공간 및 화질 스케일리빌리티를 위한 공간분석(spatial analysis)의 입력으로 연결되므로, MCTF의 성능은 전체 부호기의 성능을 좌우하는 중요한 요소이다. 이러한 MCTF는 움직임 예측(motion estimation)에 의해 결정된 현재픽셀과 예측픽셀 간의 연결성을 고려하여 적절한 시간적 필터를 적용하여 이루어진다. 따라서 MCTF의 성능을 향상시키기 위해 두가지 사항을 고려할 수 있는데, 하나는 시간적 필터의 성능 향상이고, 다른 하나는 픽셀의 연결성을 좋게하여 필터링의 대상이 되는 픽셀의 개수를 늘리는 것이다. 이 때, 시간적 필터의 성능을 향상시키기 위해서는 일반적으로 필터의 탭수를 늘리고 정교한 설계방법을 적용해야 하는데, 프레임 간에 적용하는 시간적 필터의 특성상 이러한 성능향상에 제한이 있다. 따라서 필터 자체의 성능향상보다 프레임간 픽셀의 연결성 향상에 중점을 두고 필터링의 대상이 되는 픽셀의 개수를 늘리는 것이 현실적으로 고려할 수 있는 방법이다.

본 논문에서는 MCTF의 성능을 좌우하는 픽셀 연결성을 향상시키기 위하여 움직임 벡터 필드(field)를 평탄화하는 움직임 예측 기법을 제안한다. 이를 위하여 주변 블록의 움직임 벡터를 이용하여 현재블록의 움직임 벡터를 예측하고 조기 탐색종료 조건을 적절하게 적용하여 움직임 벡터의 상관도를 높이는 한편, 가변 블록크기로 움직임 예측을 수행하여 움직임 및 화면의 복잡도가 낮은 블록에 대해서 픽셀 연결성을 더욱 향상시킬 수 있도록 한다. 본 논문의 구성은 다음과 같다. 2장에서 픽셀 연결성과 MCTF 성능의 관계를 자세히 기술하고, 3장에서는 제안하는 효과적인 MCTF를 위한 움직임 예측기법을 설명한다. 이에 대한 실험결과를 4장에서 기술하고, 5장에서 결론을 맺는다.

Ⅱ. MCTF의 일반적인 수행 방법

MCTF를 수행하기 위하여 먼저 픽셀의 연결상태를 결정하게 되는데, 움직임 예측에 의해 얻어진 움직임 벡터를 통해 연결되는 두 블록내부의 픽셀을 연결픽셀(connected pixel)이라고 하고, 그 외 연결되지 못하는 픽셀을 비연결픽셀(unconnected pixel)이라고 한다[6,7]. 또한 전체 픽셀 수에 대한 연결픽셀 수의 비율을 연결성(connectivity)으로 정의하는데, 이는 MCTF에 의한 시간적 에너지 집중 효율 및 시간적 저주파 부대역 프레임(TLSF; temporal low-frequency subband frame)의 화질에 영향을 미치는 중요한 요소이다. 시간적 에너지 집중은 전체 에너지에 대하여 시간적 필터링 이후 TLSF에 집중된 에너지의 비율로 정의되는데, 이는 각 프레임의 분산(variance)을 이용하여 표현할 수 있고, 또한 엔트로피 부호기(entropy coder)의 효율과 직접적으로 연관된다. 움직임 예측에 의한 연결픽셀과 비연결 픽셀을 결정하는 자세한 과정은 다음과 같다.

먼저 현재 프레임과 참조 프레임 사이에서 움직임 예측에 의해 얻어진 움직임 벡터로 연결되는 연결블록을 설정한다. 이미 연결블록으로 분류된 블록의 일부 또는 모든 픽셀이 현재 프레임의 다른 블록에 의해 다시 연결블록으로 선택되면, 이들 다중 연결픽셀 중 최소 DFD (displaced frame difference)를 갖는 픽셀만 연결 픽셀로 설정하고, 나머지 픽셀의 연결은 모두 해제한다. 이러한 과정을 거쳐 두 프레임 사이의 움직임 예측이 완료된 후 현재 프레임에서 연결픽셀의 수가 비연결픽셀의 수보다 적은 블록은 비연결블록으로 설정하고, 관련된 두 블록의 모든 픽셀을 비연결픽셀로 설정한다. 또한 현재 프레임의 나머지 연결블록에 대하여 두 블록중 더 작은 분산이 두 연결블록의 MSDFD (mean squared DFD)보다 작은 경우 두 블록의 모든 픽셀을 비연결픽셀로 설정한다.

일단 연결픽셀과 비연결픽셀의 분류가 완료되면, 그림 2와 같이 식 (1)과 (2)의 필터를 각 연결픽셀에 적용하고, 식 (3)과 (4)의 필터를 각 비연결픽셀에 적용하여 시간적 부대역 프레임을 생성한다.

[그림 2.] 두 프레임 사이의 MCTF 과정 (a) 움직임 예측 (b) MCTF에 의한 시간적 부대역 프레임

식 (1)-(4)에서 L[m, n], H[m, n]은 각각 필터링 이후의 TLSF와 시간적 고주파 부대역 프레임(THSF; temporal high-frequency subband frame)을, A[m, n], B[m, n]은 각각 참조 및 현재 프레임을 나타내고, (dm, dn)은 움직임 벡터를 의미한다. 이때, 저역통과 및 고역통과 필터는 기저(basis)가 정규직교(orthonormal) 특성을 갖도록 각각 , 인 2탭 Haar 필터를 사용한다[6, 8].

연결픽셀의 경우, 식 (1)과 (2)에 의해 TLSF 및 THSF를 생성한다. 그러나 비연결픽셀의 경우, 식 (3)에 의해 참조 프레임의 픽셀이 그대로 TLSF로 구성된다. 따라서 중복성 제거에 사용되지 못하는 비연결픽셀은 필터링 후의 TLSF의 화질을 저하시킬 뿐 아니라, 에너지 집중효율을 크게 저하시켜 부호화 비트율 증가를 초래한다. 따라서 MCTF의 성능향상을 위해서 연결성을 높이는 것, 즉 비연결픽셀의 수를 줄이는 것이 매우 중요하다. 또한 다중 연결픽셀이 많을수록 비연결 픽셀의 수도 증가하게 되고, 이는 연결성을 악화시키는 요인이 된다. 따라서 움직임 예측 과정에서 현재 프레임의 서로 다른 블록이 참조 프레임의 동일 블록을 예측하는 중복선택을 방지하여 다중 연결픽셀의 수를 줄이기 위해서는 움직임 벡터 필드를 가급적 평탄화할 필요가 있다.

Ⅲ. 효과적인 MCTF를 위한 움직임 예측

3.1. 움직임 벡터 필드 평탄화를 위한 움직임 예측

전역탐색(full search)은 각 탐색점 중 최소 SAD(sum of absolute difference)를 갖는 위치를 찾음으로써 예측오차의 관점에서 최적의 탐색방법이다. 반면 움직임 벡터 예측에 의한 탐색방법은 주변 블록으로부터 최소 SAD를 가질 확률이 높은 움직임 벡터 후보를 취함으로써 움직임 벡터 간의 상관도를 높일 수 있다. 이러한 방법의 관건은 최종 움직임 벡터를 결정하는데 있어 최대한 적은 수의 탐색점으로부터 정확한 벡터를 예측하는 것이다[10]. 탐색 시작점을 결정하기 위해 최종 움직임 벡터와 주변 4개의 움직임 벡터, 즉 왼쪽블록 mv_l, 위쪽블록 mv_u, 위-오른쪽블록 mv_ur 및 참조 프레임에서 현재블록과 동일한 위치의 블록의 움직임 벡터 mv_t-1 간의 거리를 표 1에 나타내었다.

[표 1.] 최종 움직임 벡터와 각 예측 벡터 간의 평균거리

최종 움직임 벡터와 각 예측 벡터 간의 평균거리

표 1은 Foreman을 제외한 모든 시퀀스에서 mv_t-1이 최종 움직임 벡터와 가장 유사함을 보여준다. 이는 mv_t-1을 시작점 예측에 사용하면 보다 효과적인 예측을 할수 있음을 뜻한다. 따라서 제안하는 알고리즘은 탐색 시작점 (s_x, s_y)를 식 (5)의 변형 중간값(modified median) 연산에 의해 구한다.

식 (5)에서 _i∈{l, u, ur, t-1}이다. 즉 4개의 예측벡터의 x, y 좌표 중 가장 큰 값과 가장 작은 값을 제외한 나머지 두 개의 예측벡터의 평균값으로 시작점의 좌표 s_x, s_y를 독립적으로 결정한다. 추가적으로, 프레임의 첫 번째 열에 존재하는 블록의 경우, mv_l이 존재하지 않으므로 식 (6)의 중간값 예측을 사용한다.

프레임의 첫 번째 행에 존재하는 블록의 경우 mv_u와 mv_ur이 존재하지 않으므로 영벡터를 추가하여 식 (7)의 중간값 예측을 사용한다.

또한 프레임의 첫 번째 블록, 즉 (0, 0)에 위치한 경우에는 존재하는 예측벡터가 mv_t-1뿐이므로 이를 그대로 사용한다. 탐색 시작점에서의 SAD가 충분히 작다면, 즉 임계값 T₁보다 작으면 더 이상 탐색을 하지 않고 탐색 시작점을 최종 움직임 벡터로 결정하여 움직임 벡터의 분포를 평탄화한다. 본 논문에서 T₁은 256을 사용한다. 더욱이 표 1의 결과와 같이 mv_t-1과 최종 움직임 벡터의 상관도가 높으므로, 탐색 시작점이 mv_t-1이라면 더 큰 문턱값을 사용할 수도 있다. 따라서 T₁은 식 (8)과 같이 결정한다.

이러한 조건을 만족하지 않을 경우 네 개의 예측벡터, 즉 mv_l, mv_u, mv_ur, mv_t-1을 더 검사한다. 이후 최소의 SAD를 갖는 예측벡터가 다이아몬드 탐색 시작점이 된다. 다이아몬드 탐색 시작점이 결정되면 임계값 T₂가 적용된다. 만약 다이아몬드 탐색 시작점에서의 SAD가 T₂ 보다 작다면 더 이상 탐색을 하지 않고 종료되는데, 다음과 같이 계산된다.

이때, T₂가 너무 작은 값이나 너무 큰 값으로 선택되지 않게 하기 위하여 T₂를 512와 1024 사이의 값으로 제한한다. 탐색 시작점을 결정할 때와 마찬가지로, 최종 움직임 벡터와 mv_t-1의 상관성이 매우 크기 때문에 다이아몬드 탐색 시작점과 mv_t-1이 같다면 T₂를 식 (10)과 같이 조정한다.

만약 SAD가 이 임계값보다 크다면 SDSP (small diamond search pattern)를 사용하여 탐색을 계속 진행한다.

3.2. 가변 블록크기 움직임 예측

픽셀 연결성을 향상시키기 위하여 움직임 벡터를 평탄화할 경우, 움직임 예측의 정확도가 떨어질 수 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 가변 블록크기 움직임 예측을 MCTF에 적용한다. 가변 블록크기 움직임 예측은 복잡하거나 움직임이 많은 영역에서는 작은 크기의 블록 단위로 움직임 예측이 수행되어 움직임 벡터의 정확성이 향상되고, 평탄하거나 움직임이 적은 영역에서는 보다 큰 크기의 블록 단위로 움직임 예측이 수행되어 움직임 벡터 필드가 평탄화되는 효과가 있다. 본 논문에서는 H.264/AVC 부호화 표준[9]에서 도입된 화면간 부호화의 블록모드와 유사하게 32×32부터 8×8까지 가변 블록크기 움직임 예측을 수행한다.

먼저 32×32 크기의 기본블록을 분할한 Mode0 - Mode3을 이용하여 움직임 예측을 수행하여 각 모드에서의 SAD를 계산하고, 그 중 최소 SAD를 갖는 모드를 최적 모드로 결정한다. 이때 Mode3이 최적 모드로 결정되면, 그림 3에서와 같이 Mode4 - Mode7을 이용하여 4개의 16×16 크기 블록에 대해 움직임 예측을 한 차례 더 반복한다.

[그림 3.] 가변 블록크기 모드

Ⅳ. 실험 및 결과

제안하는 MCTF의 성능을 평가하기 위하여, 다양한 테스트 영상에 대해 고정 블록크기 전역탐색에 의한 MCTF 결과와 비교하였다. 그림 4에서 보는 바와 같이, 제안한 방법에 의한 움직임 벡터 필드는 전역탐색과 비교하여 중복되거나 비어있는 곳이 많지 않고 잘 정돈된 모습을 보인다. 이렇게 평탄화된 움직임 벡터 필드는 특히 움직임이 크거나 다양한 영상의 픽셀 연결성을 크게 개선시킬 수 있다.

[그림 4.] 움직임 벡터 필드 (a) 전역탐색, (b) 제안한 방법

또한 그림 6(a)의 Coastguard 영상에 대한 각 프레임별 연결픽셀의 수를 살펴보면 기존의 방법, 즉 고정 블록크기 전역탐색에 비해 제안한 방법에 의한 픽셀 연결성이 향상되었음을 확인할 수 있다. 에너지 집중 효율의 관점에서 Coastguard 영상에 기존의 방법과 제안한 방법을 적용하여 THSF 각 프레임의 분산을 나타낸 그림 6(b)를 살펴보면, 제안한 방법에 의한 THSF의 분산이 기존의 방법에 비해 줄어들어 TLSF로의 에너지 집중 효율이 향상되었음을 확인할 수 있다. 이는 그림 5의 Coastguard 영상에 대한 THSF에서도 확인할 수 있다. 표 1에 다양한 테스트 영상에 대하여 MCTF에 의해 THSF으로 분해되어 나타난 에너지를 분산을 이용하여 나타내었고, 기존의 방법(conventional)과 제안한 방법(proposed)의 차이를 평균 분산 감소비(AVRR; average variance reduction ratio)로 나타내었다. 전체적으로 일정한 방향의 움직임을 보이거나, 움직임이 적은 영상의 경우보다 Foreman과 같이 움직임이 많고, 그 방향이 다양한 영상의 경우에는 THSF의 분산이 최대 30.33%까지 감소하여, MCTF의 성능이 개선됨을 나타낸다.

[그림 5.] THSF 영상 (a) 기존 방법 (b) 제안한 방법

[그림 6.] Coastguard 영상에 대한 각 프레임별 성능결과 (a) 픽셀 연결성 (b) THSF의 분산

[표 2.] MCTF 결과 THSF의 분산 및 평균 분산 감소비

MCTF 결과 THSF의 분산 및 평균 분산 감소비

Ⅴ. 결 론

본 논문에서는 MCTF를 이용한 스케일러블 비디오 부호화의 성능을 향상시키기 위하여 움직임 벡터 필드를 평탄화하고 가변 블록크기에 기반한 움직임 예측기법을 제안하였다. 움직임 벡터 필드의 평탄화는 연결픽셀의 개수를 증가시켜 시간적 필터링의 성능을 향상시키는 역할을 한다. 제안하는 움직임 예측에서는 변형 중간값 연산에 의한 탐색 시작점 결정 및 이후 탐색과정에서 mvt-1을 포함한 주변 블록의 움직임 벡터를 이용하여 움직임 벡터의 상관도를 높이고, 이를 가변 블록크기로 적용함으로써 다중 연결픽셀의 수를 줄여 픽셀 연결성을 향상시킨다. 실험결과 제안한 방법에 의한 MCTF가 움직임이 많고, 방향이 다양한 영상에 대해서 에너지 집중 효율이 최대 30.33%까지 개선되는 것을 확인하였다. 제안한 움직임 예측방법은 효과적인 스케일러블 비디오 부호화를 위하여 핵심적인 역할을 하는 MCTF의 성능을 향상시킴으로써 모바일 응용을 비롯하여 최근의 다양한 분야에 적용할 수 있을 것으로 판단된다.

참고문헌

1. Schwarz H., Marpe D., Wiegand T. 2007 "Overview of the scalable video coding extension of the H.264/AVC standard," [IEEE Trans. Circuits and Systems for Video Technology] Vol.17 P.1103-1120
2. Ohm J.-R. 1994 "Three-dimensional subband coding with motion compensation," [IEEE Trans. Image Processing] Vol.3 P.559-571
3. Chen P., Woods J. W. 2004 "Bidirectional MC-EZBC with lifting implementation," [IEEE Trans. Circuits and Systems for Video Technology] Vol.14 P.1183-1194
4. Wang Y. 2003 "Fully scalable video coding using redundantwavelet multihypothesis and motion-compensated temporal filtering," Ph. D. dissertation
5. Motion-Compensated Embedded Zeroblock Coding (MCEZBC) software package [Online]
6. Choi S.-J., Woods J. W. 1999 "Motion-compensated 3-D subband coding of video," [IEEE Trans. Image Processing] Vol.8 P.155-167
7. Chen P. 2003 "Fully scalable subband/wavelet coding," Ph. D. dissertation
8. Daubechies I. 1998 "Orthonormal bases of compacly supported wavelets," [Communications on Pure and Applied mathematics] Vol.XLI P.909-996
9. 2003 Information Technology-Coding of Audio-Visual Objects: Advanced Video Coding, ISO/IEC JTC1
10. Tourapis M., Au O. C., Liou M. L. 2001 "Predictive motion vector field adaptive search technique (PMVFAST)-enhancing block-based motion estimation," [Proceedings of SPIE Conference on Visual Communication and Image Processing] P.883-892