MUSIC 및 반향 성분 제거 기법을 이용한 음성신호의 입사각 추정

doi:10.6109/jkiice.2014.18.6.1302

OA학술지
Journal of the Korea Institute of Information and Communication Engineering

MUSIC 및 반향 성분 제거 기법을 이용한 음성신호의 입사각 추정 Direction-of-Arrival Estimation of Speech Signals Based on MUSIC and Reverberation Component Reduction

DOI : 10.6109/jkiice.2014.18.6.1302
Publish: Journal of the Korea Institute of Information and Communication Engineering Volume 18, Issue6, p1302~1309, 30 June 2014

ABSTRACT

MUSIC 및 반향 성분 제거 기법을 이용한 음성신호의 입사각 추정

In this paper, we propose a method to improve the performance of the direction-of-arrival (DOA) estimation of a speech source using a multiple signal classification (MUSIC)-based algorithm. Basically, the proposed algorithm utilizes a complex coefficient band pass filter to generate the narrow band signals for signal analysis. Also, reverberation component reduction and quadratic function-based response approximation in MUSIC spatial spectrum are utilized to improve the accuracy of DOA estimation. Experimental results show that the proposed method outperforms the well-known generalized cross-correlation (GCC)-based DOA estimation algorithm in the aspect of the estimation error and success rate, respectively.Abstract should be placed here. These instructions give you guidelines for preparing papers for JICCE.

KEYWORD

다중 신호 분류 , 음원 위치 추정 , 입사각 , 상호상관도

본문

Collapse all

Ⅰ. 서 론

음원의 입사각 추정 기법은 보안 시스템, 화상회의, 휴머로이드 로봇의 음성기반 위치 추적, 원전 내부에 분포되어 있는 기기 및 구조물에서 발생하는 누설(leakage)을 감시 등 많은 분야에서 사용되어 왔고, 또한 앞으로 음성명령 시스템을 구축한 스마트 차량 등 더 많은 분야에서 사용될 것이다. 음성 신호의 위치를 추정하는 방법으로는 채널 간 시간차 추정법, 공간 스펙트럼 추정 방법인 MUSIC(MUltiple SIgnal Classification) 알고리즘 등이 있다[1-5].

채널 간 시간차를 이용한 입사각 추정은 계산량이 적게 들고 간단한 장점이 있지만 음원의 위치를 계산하기 위하여 비선형 식을 푸는 과정에서의 불안정성, 추정된 채널 간 시간차의 신뢰도가 떨어질 경우에 추정 자체가 불가능해지는 것, 표본 단위의 시간차 추정에 의한 낮은 정밀도, 가장 우세한 단일 음원만의 추정등의 단점이 있다. MUSIC 알고리즘을 이용하여 DOA를 추정하는 방법은 고유값 분해(EVD: eigen value decomposition)를 필요하기 때문에 계산량을 많이 필요로지만 고해상도의 추정이 가능하고 복수의 음원이 존재하더라도 각각의 DOA를 동시에 추정 가능하다는 장점이 있다[1].

기존의 채널 간 시간차 기반 DOA 추정 방법은 시간차 추정 결과의 신뢰성을 높이기 위해서 많은 데이터를 필요로 하는 상호상관도를 이용하는데 반해 잡음과 신호의 수직성을 이용하는 MUSIC 알고리즘은 적은 데이터로도 추정 결과의 신뢰성을 높일 수 있다[1,5]. 제안된 알고리즘은 종래의 MUSIC 스펙트럼 방식에서 2차함수에 의한 응답 근사화를 이용하여 계산량을 줄였고, 마이크로폰이 존재하는 공간의 특성에 따른 잔향으로 발생하는 반향성분을 제거하여 음원의 DOA 추정 성능을 향상시켰다.

본 논문은 MUSIC 알고리즘을 이용하여 음성신호의 DOA를 추정하는 알고리즘을 제안으로 내용은 다음과 같다. 제 2장에서 이와 관련된 다른 DOA 추정법 및 MUSIC 알고리즘의 이론을 소개한다. 제 3장에서는 제안된 알고리즘의 5단계를 각 단계별로 설명한다. 제 4장에서는 제안된 알고리즘의 최적화 실험 및 실험 결과에 대해서 논하고 마지막으로 제 5장에서 본 논문의 결론을 맺는다.

Ⅱ. 관련 연구

   2.1. 채널 간 시간차를 이용한 DOA 추정법

위치를 측정을 위하여 마이크로폰 간의 시간지연을 이용할 수 있다. 시간지연을 구하는 방법은 여러 가지가 있는데 그 중 상호상관도로 하는 방법이 가장 많이 사용되고 있다. 음원에서 방사된 음파가 두 마이크로폰에서 수신될 때를 식 (1), (2)와 같이 표현될 수 있다.

여기서, x_i(n) 는 i 번째 마이크로폰에서 측정된 신호, S(n) 는 음원, w_i(n) 는 i 번째 마이크로폰에서 측정된 잡음, 채널 간 n_d는 시간지연을 나타낸다. S(n) 는 w_i(n) 와 통계적으로 독립적이라고 가정한다. 측정된 두 신호 x₁(n) , x₂(n) 간의 상호상관 값은 식 (3)과 같이 계산할 수 있다[6,7].

이 때 마이크로폰 사이의 시간지연은 식 (3)에서 r_x₁x₂(τ) 가 최대값을 갖게 하는 표본 단위 τ가 되고 초단위의 시간지연은 로 표현이 가능하다. 이렇게 구해진 시간지연으로 DOA를 구할 수 있다. 먼저, 원거리 가정(far field assumption), 즉, 음원과 마이크로폰 배열 간의 거리 요소를 배제한 방식을 사용할 때는 음파의 진행 방향의 단위 벡터를 식 (4)와 같이 정의한다[2].

여기서, 𝜽 와 𝜙는 천정각과 방위각을 나타낸다. 그후, 3차원 좌표 상에서의 각 마이크로폰의 위치를 벡터로 보고 식 (4)와 내적을 취하면 원거리 가정하에서의 채널 간 음원의 지연 거리를 식 (5)와 같이 표현할 수 있다.

마이크로폰의 개수를 M 으로 가정하였을 때 M(M-1)2 개의 조합에 따른 시간지연을 이용하여 식 (6)과 같은 비용함수를 정의할 수 있다.

여기서, v_s는 음파의 속도, 는 i와 j번째 마이크로폰에서 측정되는 초 단위의 시간지연을 나타낸다. 식(6)에 대해서 로 두었을 때 최적의 입사각 를 식 (7)과 같이 구할 수 있다.

여기서, 이다. =[g_x g_y g_z]^T 로 두었을 때 추정 천정각 및 방위각은 식 (8)과 같다.

   2.2. 일반화된 상호상관도 기반의 입사각 추정법

음원의 위치측정 과정 중에 도착시간지연의 정확한 검출은 매우 중요한 의미를 가진다. 주변 잡음 및 음향 반향 등의 장애 요소들의 영향을 최소화하여 가급적 음원 위치 추정 오차를 최소화 할 수 있는 다양한 알고리즘이 제안되고 있다. 그 중, 대표적인 알고리즘으로는 주파수 영역에서 두 신호의 상호상관도(crosscorrelation)를 이용하여 추정하는 일반화된 상호상관 (GCC: generalized cross-rorrelation)방법이 있다. GCC 방법은 주파수 영역에서 가중치 함수를 활용하며 식 (9)와 같이 표현할 수 있다[4].

여기서, 𝜓(w)는 가중치 함수, 두 마이크로폰에서 수신된 신호의 상호 전력스펙트럼을 나타낸다. 식 (9)에 의한 채널 간의 시간차를 추정한 후의 DOA 추정은 식 (4)에서 (8)까지의 과정을 동일하게 적용하여 수행한다.

   2.3. MUSIC 스펙트럼 기반의 입사각 추정법

협대역 복소신호를 이용하여 DOA를 추정하는 MUSIC 알고리즘은 독립적인 다중소스의 DOA를 찾는것이 가능하며 다른 알고리즘보다 높은 추정 해상도를 가지고 있다. MUSIC에 의한 DOA추정 방법은 다음과같다. 먼저, 존재하는 신호원의 개수를 D개, 신호를 수신하는 센서의 개수를 M (M > D)개로 가정하여 다채널 신호의 수신 모델을 식 (10)과 같이 표현한다.

여기서, , 를 나타내고 (𝜽_i𝜙_i) 는 (𝜽_i𝜙_i) 에 존재하는 i 번째 신호원에 의해서 정해지는 배열 응답(array response) 벡터, 는 신호원에서 발생되는 신호 벡터, 는 센서에서 발생하는 잡음 벡터, 는 센서에서 수신되는 신호의 벡터이다. MUSIC 기반의 신호 분석을 위해서 먼저, 신호의 공분산 행렬을 식 (11)과 같이 구한다.

여기서, E[ㆍ]는 기대치를 λ는 고유값을 나타낸다. 식 (11)을 사용하여 구한 공분산에 대하여 식 (12)를 만족하는 고유벡터와 고유값을 계산하여 EVD를 해준다.

여기서,

A=diag{ λ₁,λ₂, ᐧᐧᐧλ_M}이고 와 λ_i는 고유벡터와 고유값을 나타낸다. 센서의 개수가 신호원보다 많기 때문에 고유값이 상대적으로 작은 잡음의 고유벡터가 존재하여 식 (11)은 식 (13)과 같이 나타낼 수 있다[1].

여기서, λ_min 는 잡음의 고유값을 나타낸다. 따라서, EVD를 수행한 후 고유값이 가장 작은 것에 해당하는 고유벡터 을 센서 잡음을 나타내는 것으로 간주할 수 있다. 잡음의 고유벡터와 (𝜽_i)가 수직임을 이용하여 MUSIC 스펙트럼을 식 (14)과 같이 정의할 수 있다[1].

따라서, 식 (14)가 최대로 하는 (𝜽, 𝜙)를 검출하여 DOA로 추정할 수 있다.

Ⅲ. 제안된 알고리즘

제안된 알고리즘에서는 MUSIC 알고리즘을 사용하여 신호의 DOA를 검출하기 위해 마이크로폰으로 수집되는 음성신호를 복소신호로 변환하였다. MUSIC 기반의 공간 스펙트럼을 계산 후에 반향 성분에 의하여 발생할 수 있는 피크를 거절해 주었고, 계산속도 및 해상도를 고려하여 2차원-2차 보간 다항식을 세워 해상도를 소수점 단위로 향상시켰다. 그림 1에서 상기의 과정을 나타내었다. 그림 1에서 (n)는 마이크로폰에서 측정되는 신호, (n)는 복소신호, 는 최소 고유치를 갖는 고유백터를 나타낸다. 각 블록에 대한 자세한 설명은 다음과 같다.

[그림 1.] 제안된 알고리즘의 구조

   3.1. 복소신호의 생성

실수 값을 갖는 신호로부터 그것의 복소 신호를 생성하는 방법으로는 일반적으로 이산 푸리에 변환이 사용 될 수 있으나 본 연구에서는 계산량을 줄이기 위해서 복소 계수를 갖는 필터를 활용하였다. 사용된 복소 대역 통과 필터의 생성개념을 (15)에 나타내었다[6].

여기서, w₀는 이동하고자 하는 대역의 중심주파수, H_LPF(z) 는 실계수를 갖는 저대역 통과 필터이며 그것의 차단 주파수는 생성하고자 하는 복소 대역 통과 필터 대역의 절반이다.

   3.2. 공분산 및 EVD 계산

2.3절에 언급한 바와 같이 MUSIC 알고리즘을 사용하기 위해 복소신호 (n)의 공분산을 구한다. 그 공분산의 EVD를 통해 최소의 고유치를 갖는 고유벡터를 음원 혹은 그것의 반사 성분이 아닌 잡음성분에 의한것으로 간주하여 을 검출한다.

   3.3. MUSIC 스펙트럼 계산

벡터의 내적 개념을 이용한 식 (14)을 사용하여 천정각 𝜽 와 방위각 𝜙에 따른 P_MUSIC(𝜽,𝜙) 값을 분석하여 음원 혹은 그것의 반사 성분에 의해 발생하는 피크를 찾는다.

   3.4. 반향 성분 제거

음성 신호는 벽면이나 여러 물체에 반사되는 반향 성분에 의하여 그림 2에 나타난 바와 같이 MUSIC 기반의 공간 스펙트럼에 여러 개의 피크가 발생된다. 피크 중 가장 큰 점이 찾고자하는 DOA이면 문제가 없지만 반향 성분에 의한 것이 가장 더 클 수 있다. 다만, 음성 신호의 직접 경로에 의한 성분보다 반향에 의한 성분이 그 크기가 상당히 줄어들 것임을 예측할 수 있다. 이러한 개념을 바탕으로 본 연구에서는 검출된 각 피크의 방향으로 MUSIC 알고리즘 계산에 사용된 다채널 입력신호를 조정(steering)한 후 합한 다음에 에너지가 최대인 것을 방향을 최종 음원의 위치로 선정하였다.

[그림 2.] MUSIC 기반 공간 스펙트럼에서 반향 성분에 의해 발생한 여러 개의 피크 예시

   3.5. 추정오차 향상

음원의 위치 추정을 위해서 식 (14)의 공간 스펙트럼은 지정한 정밀도에 의해서 계산될 수 있다. 일반적으로는 정수 단위의 각도 정밀도를 생각할 수 있는데, 정밀도를 2배 높이면 계산량은 4배가 증가하게 되는 단점이 있다. 따라서, 본 연구에서는 식 (16)과 같이 2차원 2차 함수를 활용한 함수의 근사화 기법을 통해서 주어진 추정 정밀도를 높일 수 있는 간단한 방식을 활용하였다.

식 (16)은 검출된 피크 주변의 6개의 측정된 응답을 사용하여 식 (14)의 MUSIC 스펙트럼을 f(𝜽,𝜙) 로 근사화 시키는 개념이다. 식 (16)에서 f(𝜽,𝜙) 가 최대가 될때 즉, 정밀도가 향상된 천정각 𝜽와 방위각 𝜙는 식 (17)과 같이 구할 수 있다.

Ⅳ. 실험 및 결과

   4.1. 다채널 DB 수집 및 실험 조건

마이크로폰 배열 중심으로부터 지면상의 거리를 2 m로 두 고 천정각 60, 90도 방위각 0, 45, -45도의 위치의 음원을 수집하였다. 마이크로폰의 수는 8 개이고 다채널 마이크로폰은 그림 3과 같이 p₁ ~ p₈ 의 위치에 배치하였다. 각 위치는 p₁ = [0.27, 0, 0], p₂ = [-0.135, -0.234,0], p₃ = [-0.135, 0.234, 0], p₄ = [0, 0, 0.27], p₅ = [0.09,0, 0], p₆ = [-0.045, -0.078, 0], p₇ = [-0.045, 0.078, 0], p₈= [0, 0, 0.09] 이다. 성능 측정을 위해서 음성 신호로 남성과 여성의 발성이 섞인 100개의 한국어 고립어가 사용되었으며 고품질 음향 스피커를 통해서 재생되었다. 모든 데이터는 표본화율 16 kHz, 해상도 16 bit로 저장되었다. 음원 및 장비의 전체적인 배치는 그림4와 같고 지면에서 녹음 장비와의 수직 높이는 약 1 m로 하였다.

[그림 3.] 다채널 마이크로폰의 배치

[그림 4.] 다채널 DB 수집 환경 (방위각 0도, 천정각 90도 예시)

   4.2. 제안된 방식에서의 복소 필터 최적화

제안된 방식의 그림 1에서 복소 신호 생성을 위한 필터의 중심주파수 w₀ 및 대역폭은 실험적으로 최적 조건을 검출하였다. 이를 위해서 먼저, 천정각 𝜽 , 방위각𝜙의 오차가 20° 미만일 때를 추정 성공으로 간주하였으며 중심 주파수 및 대역폭을 가변하면서 식 (18)을 적용하여 평균 추정 오차를 계산하였다.

여기서, N 은 실험 데이터 중 허용오차 범위 내의 개수, 는 i번째 데이터의 추정 각도, 는 i번째 데이터의 실제 각도를 나타낸다.

실험을 위해서 사용된 식 (15)의 HLPF(z)는 통과 대역의 리플이 0.1 dB, 차단 대역의 감쇄가 40 dB인 6차의 엘립틱(elliptic) 필터였다[6]. 먼저, 그림 5(a)는 대역폭이 700 Hz일 때 500 Hz간격으로 중심주파수 변화에 따른 추정에 성공한 추정 각도의 평균오차를 나타내고 최적의 중심주파수는 2.5 kHz인 것을 알 수 있다. 그림5(b)는 중심주파수가 2.5 kHz일 때 200 Hz간격으로 대역폭 변화에 따른 추정에 성공한 추정 각도의 평균오차를 나타내고 최적의 대역폭은 700 Hz인 것을 알 수 있다.

[그림 5.] 중심주파수 및 대역폭에 따른 평균 추정오차

   4.3. 성능 비교

제안된 알고리즘과 종래의 GCC 기반의 입사각 추정의 성능이 비교되었다. 종래의 GCC 기반의 입사각 추정법을 위해서 PHAT(Phase Transform) 가중치 함수를 적용하였다.

[그림 6.] 복소신호의 생성에 사용된 복소 계수 대역 통과 필터 의 주파수 응답

[그림 7.] 입력된 음성신호(실선) 및 생성된 복소 신호 예시(점선: 실수부, 파선: 허수부, 틱간 간격은 30 샘플)

또한, 채널 간 시간차 추정이 시행되는 신호의 구간은 에너지가 가장 큰 부분을 검출하여 설정하였고 사용된 이산 푸리에 변환의 크기는 1024였다. 제안된 알고리즘에서는 동등한 조건에서의 성능 비교가 이루어지도록 하기 위해서 GCC에서 사용한 동일한 구간에 대해서 식 (11)의 공분산 행렬을 구하고 EVD 분석을 수행하였다. 복소 신호의 생성은 4.2절에서 얻은 최적 실험결과를 바탕으로 대역폭 700 Hz와 중심주파수 2.5 kHz 인 6차 복소 계수 엘립틱 필터를 사용하였다. 그림 6에그것의 주파수 응답을 나타내었으며 그림 7에 그것에 의해 생성되는 복소 신호의 예를 나타내었다. 식 (14)의 MUSIC 기반 공간 스펙트럼은 천정각 𝜽및 방위각 𝜙에 대해서 1 도 단위로 계산되었다. 그림 8에서 제안된 알고리즘과 GCC 기반의 입사각 추정법의 성능 측정 결과를 나타내었다.

[그림 8.] 제안된 알고리즘과 GCC 기반의 입사각 추정법과의 비교. 검정색 및 회색은 제안된 알고리즘 및 GCC 기반의 입 사각 추정법 (a) 음원의 위치에 따른 방위각 추정 오차의 평 균, (b) 음원의 위치에 따른 천정각 오차의 평균

그림 8에서 알 수 있듯이 제안된 입사각 추정 알고리즘이 모든 조건에서 전반적으로 더 낳은 성능을 나타내었다. 제안된 방식은 𝜽 및 𝜙 추정에 있어서 종전의 GCC 기법에 비해서 평균적으로 4.79°, 6.92° 만큼의 더 낮은 추정오차를 나타내었다. 상기의 성능치는 4.2절에서 언급한 바와 같이 추정 오차가 20° 미만인 추정 성공의 경우 대해서만 구한 것이다. 추가적으로 추정 성공률에 대한 성능은 제안된 방식은 95.33% 인데 반해 GCC 방식은 9.18%에 불과하였다. 즉, 실환경에서의 성능 측정 결과 종래의 GCC 방식은 추정 오차보다 추정 성공률에서 매우 불리함을 지적할 수 있다. 이러한 결과는 종래의 GCC 방식이 제안된 방식과는 달리 반향성분 등에서 오는 성능 저하를 대처할 수 없기 때문에 얻어진 것으로 판단된다.

Ⅴ. 결 론

본 논문에서는 MUSIC 알고리즘을 기반으로 반향성분 거절, 2차 함수 기반 DOA 추정 정밀도 향상에 관한 방법을 제안하였다. 실환경 조건에서의 실험결과 제안한 방법의 평균 추정 오차는 GCC 기반의 입사각 추정법에 비해 천정각 4.79°, 방위각 6.92° 감소하였고 추정성공률은 월등히 향상됨을 알 수 있었다. 향후, 제안된 DOA 추정 알고리즘을 기반으로 복수의 음원이 존재할때 검출된 피크 방향으로 빔포밍을 수행한 후 그 결과에 대한 상호상관도를 측정하여 반향성분의 DOA를 거절할 수 있는 알고리즘을 구현할 예정이다.

참고문헌

1. Schmidt R 1986 "Multiple emitter location and signal parameter estimation," [IEEE Trans. Antenna and Propagation] Vol.AP-34 P.276-280
2. Frire I, Apolinario J 2011 "DoA of gunshot signals in a spatial microphone array: Performance of the interpolated Generalized Cross-Correlation method," P.1-6
3. Zhao S, Ahmed S, Liang Y, Chen D, Jones D 2012 "A real-time 3D sound localization system with miniature microphone array for virtual reality," [7th IEEE Conference on Industrial Electronics and Applications] P.1853-1857
4. Knapp C, Carter G 1976 "The generalized correlation method for estimation of time delay," [IEEE Trans. Acoust. Speech Signal Process.] Vol.ASSP-24 P.320-327
5. Benesity J, Chen J, Huang Y 2008 Microphone Array signal processing
6. Oppenheim A, Shafer R 2009 Discrete-time signal processing
7. Hayes M 1996 Statistical digital signal processing and modeling

OAK XML 통계

이미지 / 테이블

[ 그림 1. ] 제안된 알고리즘의 구조
[ 그림 2. ] MUSIC 기반 공간 스펙트럼에서 반향 성분에 의해 발생한 여러 개의 피크 예시
[ 그림 3. ] 다채널 마이크로폰의 배치
[ 그림 4. ] 다채널 DB 수집 환경 (방위각 0도, 천정각 90도 예시)
[ 그림 5. ] 중심주파수 및 대역폭에 따른 평균 추정오차
[ 그림 6. ] 복소신호의 생성에 사용된 복소 계수 대역 통과 필터 의 주파수 응답
[ 그림 7. ] 입력된 음성신호(실선) 및 생성된 복소 신호 예시(점선: 실수부, 파선: 허수부, 틱간 간격은 30 샘플)
[ 그림 8. ] 제안된 알고리즘과 GCC 기반의 입사각 추정법과의 비교. 검정색 및 회색은 제안된 알고리즘 및 GCC 기반의 입 사각 추정법 (a) 음원의 위치에 따른 방위각 추정 오차의 평 균, (b) 음원의 위치에 따른 천정각 오차의 평균