In this paper, we propose a method to improve the performance of the direction-of-arrival (DOA) estimation of a speech source using a multiple signal classification (MUSIC)-based algorithm. Basically, the proposed algorithm utilizes a complex coefficient band pass filter to generate the narrow band signals for signal analysis. Also, reverberation component reduction and quadratic function-based response approximation in MUSIC spatial spectrum are utilized to improve the accuracy of DOA estimation. Experimental results show that the proposed method outperforms the well-known generalized cross-correlation (GCC)-based DOA estimation algorithm in the aspect of the estimation error and success rate, respectively.Abstract should be placed here. These instructions give you guidelines for preparing papers for JICCE.
음원의 입사각 추정 기법은 보안 시스템, 화상회의, 휴머로이드 로봇의 음성기반 위치 추적, 원전 내부에 분포되어 있는 기기 및 구조물에서 발생하는 누설(leakage)을 감시 등 많은 분야에서 사용되어 왔고, 또한 앞으로 음성명령 시스템을 구축한 스마트 차량 등 더 많은 분야에서 사용될 것이다. 음성 신호의 위치를 추정하는 방법으로는 채널 간 시간차 추정법, 공간 스펙트럼 추정 방법인 MUSIC(MUltiple SIgnal Classification) 알고리즘 등이 있다[1-5].
채널 간 시간차를 이용한 입사각 추정은 계산량이 적게 들고 간단한 장점이 있지만 음원의 위치를 계산하기 위하여 비선형 식을 푸는 과정에서의 불안정성, 추정된 채널 간 시간차의 신뢰도가 떨어질 경우에 추정 자체가 불가능해지는 것, 표본 단위의 시간차 추정에 의한 낮은 정밀도, 가장 우세한 단일 음원만의 추정등의 단점이 있다. MUSIC 알고리즘을 이용하여 DOA를 추정하는 방법은 고유값 분해(EVD: eigen value decomposition)를 필요하기 때문에 계산량을 많이 필요로지만 고해상도의 추정이 가능하고 복수의 음원이 존재하더라도 각각의 DOA를 동시에 추정 가능하다는 장점이 있다[1].
기존의 채널 간 시간차 기반 DOA 추정 방법은 시간차 추정 결과의 신뢰성을 높이기 위해서 많은 데이터를 필요로 하는 상호상관도를 이용하는데 반해 잡음과 신호의 수직성을 이용하는 MUSIC 알고리즘은 적은 데이터로도 추정 결과의 신뢰성을 높일 수 있다[1,5]. 제안된 알고리즘은 종래의 MUSIC 스펙트럼 방식에서 2차함수에 의한 응답 근사화를 이용하여 계산량을 줄였고, 마이크로폰이 존재하는 공간의 특성에 따른 잔향으로 발생하는 반향성분을 제거하여 음원의 DOA 추정 성능을 향상시켰다.
본 논문은 MUSIC 알고리즘을 이용하여 음성신호의 DOA를 추정하는 알고리즘을 제안으로 내용은 다음과 같다. 제 2장에서 이와 관련된 다른 DOA 추정법 및 MUSIC 알고리즘의 이론을 소개한다. 제 3장에서는 제안된 알고리즘의 5단계를 각 단계별로 설명한다. 제 4장에서는 제안된 알고리즘의 최적화 실험 및 실험 결과에 대해서 논하고 마지막으로 제 5장에서 본 논문의 결론을 맺는다.
위치를 측정을 위하여 마이크로폰 간의 시간지연을 이용할 수 있다. 시간지연을 구하는 방법은 여러 가지가 있는데 그 중 상호상관도로 하는 방법이 가장 많이 사용되고 있다. 음원에서 방사된 음파가 두 마이크로폰에서 수신될 때를 식 (1), (2)와 같이 표현될 수 있다.
여기서,
이 때 마이크로폰 사이의 시간지연은 식 (3)에서
여기서, 𝜽 와 𝜙는 천정각과 방위각을 나타낸다. 그후, 3차원 좌표 상에서의 각 마이크로폰의 위치를 벡터로 보고 식 (4)와 내적을 취하면 원거리 가정하에서의 채널 간 음원의 지연 거리를 식 (5)와 같이 표현할 수 있다.
마이크로폰의 개수를 M 으로 가정하였을 때
여기서,
여기서, 이다. =[
음원의 위치측정 과정 중에 도착시간지연의 정확한 검출은 매우 중요한 의미를 가진다. 주변 잡음 및 음향 반향 등의 장애 요소들의 영향을 최소화하여 가급적 음원 위치 추정 오차를 최소화 할 수 있는 다양한 알고리즘이 제안되고 있다. 그 중, 대표적인 알고리즘으로는 주파수 영역에서 두 신호의 상호상관도(crosscorrelation)를 이용하여 추정하는 일반화된 상호상관 (GCC: generalized cross-rorrelation)방법이 있다. GCC 방법은 주파수 영역에서 가중치 함수를 활용하며 식 (9)와 같이 표현할 수 있다[4].
여기서, 𝜓(
협대역 복소신호를 이용하여 DOA를 추정하는 MUSIC 알고리즘은 독립적인 다중소스의 DOA를 찾는것이 가능하며 다른 알고리즘보다 높은 추정 해상도를 가지고 있다. MUSIC에 의한 DOA추정 방법은 다음과같다. 먼저, 존재하는 신호원의 개수를 D개, 신호를 수신하는 센서의 개수를 M (M > D)개로 가정하여 다채널 신호의 수신 모델을 식 (10)과 같이 표현한다.
여기서, , 를 나타내고 (𝜽
여기서,
여기서,
여기서, λmin 는 잡음의 고유값을 나타낸다. 따라서, EVD를 수행한 후 고유값이 가장 작은 것에 해당하는 고유벡터 을 센서 잡음을 나타내는 것으로 간주할 수 있다. 잡음의 고유벡터와 (𝜽
따라서, 식 (14)가 최대로 하는 (𝜽, 𝜙)를 검출하여 DOA로 추정할 수 있다.
제안된 알고리즘에서는 MUSIC 알고리즘을 사용하여 신호의 DOA를 검출하기 위해 마이크로폰으로 수집되는 음성신호를 복소신호로 변환하였다. MUSIC 기반의 공간 스펙트럼을 계산 후에 반향 성분에 의하여 발생할 수 있는 피크를 거절해 주었고, 계산속도 및 해상도를 고려하여 2차원-2차 보간 다항식을 세워 해상도를 소수점 단위로 향상시켰다. 그림 1에서 상기의 과정을 나타내었다. 그림 1에서 (
실수 값을 갖는 신호로부터 그것의 복소 신호를 생성하는 방법으로는 일반적으로 이산 푸리에 변환이 사용 될 수 있으나 본 연구에서는 계산량을 줄이기 위해서 복소 계수를 갖는 필터를 활용하였다. 사용된 복소 대역 통과 필터의 생성개념을 (15)에 나타내었다[6].
여기서,
2.3절에 언급한 바와 같이 MUSIC 알고리즘을 사용하기 위해 복소신호 (
벡터의 내적 개념을 이용한 식 (14)을 사용하여 천정각 𝜽 와 방위각 𝜙에 따른
음성 신호는 벽면이나 여러 물체에 반사되는 반향 성분에 의하여 그림 2에 나타난 바와 같이 MUSIC 기반의 공간 스펙트럼에 여러 개의 피크가 발생된다. 피크 중 가장 큰 점이 찾고자하는 DOA이면 문제가 없지만 반향 성분에 의한 것이 가장 더 클 수 있다. 다만, 음성 신호의 직접 경로에 의한 성분보다 반향에 의한 성분이 그 크기가 상당히 줄어들 것임을 예측할 수 있다. 이러한 개념을 바탕으로 본 연구에서는 검출된 각 피크의 방향으로 MUSIC 알고리즘 계산에 사용된 다채널 입력신호를 조정(steering)한 후 합한 다음에 에너지가 최대인 것을 방향을 최종 음원의 위치로 선정하였다.
음원의 위치 추정을 위해서 식 (14)의 공간 스펙트럼은 지정한 정밀도에 의해서 계산될 수 있다. 일반적으로는 정수 단위의 각도 정밀도를 생각할 수 있는데, 정밀도를 2배 높이면 계산량은 4배가 증가하게 되는 단점이 있다. 따라서, 본 연구에서는 식 (16)과 같이 2차원 2차 함수를 활용한 함수의 근사화 기법을 통해서 주어진 추정 정밀도를 높일 수 있는 간단한 방식을 활용하였다.
식 (16)은 검출된 피크 주변의 6개의 측정된 응답을 사용하여 식 (14)의 MUSIC 스펙트럼을
마이크로폰 배열 중심으로부터 지면상의 거리를 2 m로 두 고 천정각 60, 90도 방위각 0, 45, -45도의 위치의 음원을 수집하였다. 마이크로폰의 수는 8 개이고 다채널 마이크로폰은 그림 3과 같이
제안된 방식의 그림 1에서 복소 신호 생성을 위한 필터의 중심주파수
여기서,
실험을 위해서 사용된 식 (15)의 HLPF(z)는 통과 대역의 리플이 0.1 dB, 차단 대역의 감쇄가 40 dB인 6차의 엘립틱(elliptic) 필터였다[6]. 먼저, 그림 5(a)는 대역폭이 700 Hz일 때 500 Hz간격으로 중심주파수 변화에 따른 추정에 성공한 추정 각도의 평균오차를 나타내고 최적의 중심주파수는 2.5 kHz인 것을 알 수 있다. 그림5(b)는 중심주파수가 2.5 kHz일 때 200 Hz간격으로 대역폭 변화에 따른 추정에 성공한 추정 각도의 평균오차를 나타내고 최적의 대역폭은 700 Hz인 것을 알 수 있다.
제안된 알고리즘과 종래의 GCC 기반의 입사각 추정의 성능이 비교되었다. 종래의 GCC 기반의 입사각 추정법을 위해서 PHAT(Phase Transform) 가중치 함수를 적용하였다.
또한, 채널 간 시간차 추정이 시행되는 신호의 구간은 에너지가 가장 큰 부분을 검출하여 설정하였고 사용된 이산 푸리에 변환의 크기는 1024였다. 제안된 알고리즘에서는 동등한 조건에서의 성능 비교가 이루어지도록 하기 위해서 GCC에서 사용한 동일한 구간에 대해서 식 (11)의 공분산 행렬을 구하고 EVD 분석을 수행하였다. 복소 신호의 생성은 4.2절에서 얻은 최적 실험결과를 바탕으로 대역폭 700 Hz와 중심주파수 2.5 kHz 인 6차 복소 계수 엘립틱 필터를 사용하였다. 그림 6에그것의 주파수 응답을 나타내었으며 그림 7에 그것에 의해 생성되는 복소 신호의 예를 나타내었다. 식 (14)의 MUSIC 기반 공간 스펙트럼은 천정각 𝜽및 방위각 𝜙에 대해서 1 도 단위로 계산되었다. 그림 8에서 제안된 알고리즘과 GCC 기반의 입사각 추정법의 성능 측정 결과를 나타내었다.
그림 8에서 알 수 있듯이 제안된 입사각 추정 알고리즘이 모든 조건에서 전반적으로 더 낳은 성능을 나타내었다. 제안된 방식은 𝜽 및 𝜙 추정에 있어서 종전의 GCC 기법에 비해서 평균적으로 4.79°, 6.92° 만큼의 더 낮은 추정오차를 나타내었다. 상기의 성능치는 4.2절에서 언급한 바와 같이 추정 오차가 20° 미만인 추정 성공의 경우 대해서만 구한 것이다. 추가적으로 추정 성공률에 대한 성능은 제안된 방식은 95.33% 인데 반해 GCC 방식은 9.18%에 불과하였다. 즉, 실환경에서의 성능 측정 결과 종래의 GCC 방식은 추정 오차보다 추정 성공률에서 매우 불리함을 지적할 수 있다. 이러한 결과는 종래의 GCC 방식이 제안된 방식과는 달리 반향성분 등에서 오는 성능 저하를 대처할 수 없기 때문에 얻어진 것으로 판단된다.
본 논문에서는 MUSIC 알고리즘을 기반으로 반향성분 거절, 2차 함수 기반 DOA 추정 정밀도 향상에 관한 방법을 제안하였다. 실환경 조건에서의 실험결과 제안한 방법의 평균 추정 오차는 GCC 기반의 입사각 추정법에 비해 천정각 4.79°, 방위각 6.92° 감소하였고 추정성공률은 월등히 향상됨을 알 수 있었다. 향후, 제안된 DOA 추정 알고리즘을 기반으로 복수의 음원이 존재할때 검출된 피크 방향으로 빔포밍을 수행한 후 그 결과에 대한 상호상관도를 측정하여 반향성분의 DOA를 거절할 수 있는 알고리즘을 구현할 예정이다.