In general, the number of underwater transient signals is very limited for research on automatic recognition. Data-dependent feature extraction is one of the most effective methods in this case. Therefore, we suggest WPCC (Wavelet packet ceptsral coefficient) as a feature extraction method. A wavelet packet best tree for each data set is formed using an entropy-based cost function. Then, every terminal node of the best trees is counted to build a common wavelet best tree. It corresponds to flexible and non-uniform filter bank reflecting characteristics for the data set. A GMM (Gaussian mixture model) is used to classify five classes of underwater transient data sets. The error rate of the WPCC is compared using MFCC (Mel-frequency ceptsral coefficients). The error rates of WPCC-db20, db40, and MFCC are 0.4%, 0%, and 0.4%, respectively, when the training data consist of six out of the nine pieces of data in each class. However, WPCC-db20 and db40 show rates of 2.98% and 1.20%, respectively, while MFCC shows a rate of 7.14% when the training data consists of only three pieces. This shows that WPCC is less sensitive to the number of training data pieces than MFCC. Thus, it could be a more appropriate method for underwater transient recognition. These results may be helpful to develop an automatic recognition system for an underwater transient signal.
수중에서 음향 신호의 식별은 안전하고 효율적인 선박 및 잠수함 운용에 있어서 매우 중요하다. 그러나 음성인식 기술에 큰 발전을 이룬 현재까지도 수중 음향신호 식별 자동화는 더디 진행되고 있으며 주로 숙련된 전문가를 통해 인식을 수행하고 있다. 이는 인식 오류가 선박 및 잠수함 운용에 끼치는 영향이 지대하기 때문이기도 하지만, 수중 신호원의 다양성 및 복합성, 낮은 신호대 잡음비 등이 자동 식별에 큰 어려움을 주기 때문이기도 하다(Oliveira et al, 2002, Tucker, 2003). 특히 수중에서 발생하는 선박 및 잠수함의 해치, 어뢰발사관 등의 중요한 신호들은 짧은 지속시간과 비정재성의 특성도 함께 나타내므로 이러한 자동 인식의 어려움을 극복하기 위해서는 수중 음원 식별에 대한 지속적인 연구가 요구된다(Tucker, 2003, Kundu et al, 1994). 그러나 다른 어떤 제약보다 수중 음원 식별문제에 어려움이 되는 것은 데이터 집단의 통계적 특성을 파악하기 위한 훈련데이터를 수집하기가 매우 어렵다는 점이다.
그럼에도 현재까지 국내·외에서 수중 신호 인식에 대한 연구가 지속적으로 진행되어 오고 있으며 음성인식 분야의 다양한 기술들이 수중 천이신호 인식 연구에 적용되어 오고 있다. Lim et al.(2007)은 음성인식에 널리 사용되는 MFCC(Mel frequency cepstral coefficient)를 수중 신호 특징 추출에 적용하였고, 그 결과 시간-주파수 분석 기법으로 많이 이용되는 위그너-빌 분포함수(Wigner-Ville distribution) 특징을 이용한 방법에 비해 우수한 성능이 나타나는 것을 확인한 바 있다. 이들이 연구에 사용한 수중 천이신호 자료는 5~7가지 클래스, 40개 이내의 데이터로 일반적인 음성인식 연구에 비해 소규모 데이터 구성이었으며 데이터 확보의 현실적 한계를 보여준다.
한편, Pavez and Silva (2012)는 음성인식 특징 추출을 위해 웨이브렛 패킷(Wavelet packet) 분해 과정을 통한 비 균일한 필터뱅크를 구성하고 이를 캡스트럼 분석에 적용하였다. 이를 WPCC(Wavelet packet cepstral coefficeint)라 하고 음성 신호에 대해 인식을 수행하였으며 특정 조건하에서 MFCC보다 우수한 결과를 얻었다. 웨이브렛 패킷을 통해 신호를 분해하는 과정은 필터 뱅크를 통한 대역별 신호 분해와 같은 개념이며, 웨이브렛 모함수 및 트리의 가지치기에 적용하는 규준에 따라 필터 뱅크의 개수와 밴드 폭을 가변적으로 구성할 수 있는 장점이 있다. 이 경우 훈련 데이터 집합의 특성이 반영된, 비 균일한 밴드 폭을 갖는 필터뱅크를 구성할 수 있게 된다.
수중 천이신호는 시간과 주파수 공간에서의 특징이 음성신호의 특징과 다르지만, WPCC와 같이 데이터 집합의 특성을 반영할 수 있는 특징추출 방법은 훈련 데이터 수에 제약이 따르는 수중 천이신호 인식에 매우 효과적일 것으로 판단할 수 있다. 따라서 본 논문은 WPCC 특징 추출 기법을 수중 천이신호 인식에 적용해 보았으며 같은 조건에서 MFCC 특징을 이용한 결과와 비교하여 성능을 검증하였다. 뿐만 아니라 훈련 데이터 개수에 따른 결과를 분석하여 수중 천이신호 인식에 있어서 데이터 집합의 특성을 반영하는 특징 추출 방법의 필요성을 강조하였다
논문의 구성은 다음과 같다. 먼저 2장에서는 기본적인 웨이브렛 패킷변환 이론에 대해 설명한 후 개별 데이터의 특성을 반영하는 비 균일 필터뱅크 분할 알고리즘과 여러 클래스에 대한 공통 필터뱅크 구성 방법을 설명한다. 이어서 3장에서는 인식 알고리즘과 구체적인 실험 방법에 대해 소개 한다. 4장에서는 연구에 사용된 수중 과도신호와 이를 이용한 실험 결과들을 절차에 따라 소개하고 최종 인식 결과를 정리 및 분석한다. 마지막으로 5장에서는 연구의 결론을 맺는다.
특징 벡터 추출 이전에 먼저 웨이브렛 필터뱅크를 구성해야 하지만 그에 대한 구체적인 방법은 다음 절에서 다루기로 하고 본 절에서는 포괄적인 특징 벡터 추출 방법에 대해 설명하겠다. 웨이브렛 필터뱅크가 구성되고 나면 캡스트럼 분석 알고리즘에 따라 WPCC를 추출해 낸다. 이는 MFCC 계수 추출 방법과 유사하며 이를 요약하면 다음과 같다(Fig. 1).
① 분석하고자 하는 신호가 입력되면 전처리 과정을 통해 프레임 단위로 나누고, 해밍 윈도우(Hamming window)를 적용한 후 프리 엠퍼시스(Pre-emphasis)를 수행한다. 프리 엠퍼시스는 계수 1과 α를 갖는 고역 통과 FIR(Finite impulse response) 필터로 표현되며, 이때 α는 일반적으로 0.95~0.98의 값을 갖는다.
② MFCC의 경우 신호가 전처리 과정 이후 파워 스펙트럼을 구하고 멜-필터뱅크를 적용시키지만, WPCC는 그 대신 웨이브렛 패킷 분해를 수행하며 각 스케일 별로 분해된 웨이브렛 패킷 계수의 에너지를 구한다. 를 해상도 수준
③ 웨이브렛 패킷의 대역별 에너지는 파워 스펙트럼의 필터뱅크 출력으로 대응되며, 이것의 로그를 계산한 후 코사인 변환(DCT, Discrete cosine transform)을 취해 캡스트럼 계수를 얻는다. 이를 WPCC라 한다.
구체적인 필터뱅크 구성 방법은 다음과 같다. 먼저 개별 데이터에 대한 웨이브렛 최적 기저를 찾아내고 모든 데이터 범위에서 빈도수가 많은 최적 기저들을 찾아내 공통 트리를 구성한다. 공통 트리를 구성하는 방법은 여러 가지가 있을 수 있다. 최근 Pavez and Silva(2012)는 충실도(Fidelity)를 계산하여 공통 최적기저 가지를 구성하는 방법을 제안하기도 했지만 이 경우 각 데이터 마다 모든 노드에서 신호의 에너지를 계산한 후 충실도를 계산 및 비교해야 하므로 많은 계산량이 요구된다. 본 논문에서는 고전적인 방법이지만 널리 사용되어 오고 있는 엔트로피 기반 가지치기 방법을 이용해 공통 트리를 구성하였다.
2.2.1. 웨이브렛 패킷 변환
여기서 와 에
식 (1)과 (2)의 관계를 통해 해상도별 웨이브렛 패킷 계수의 관계를 도출하고, 연속 시간을 이산 시간으로 표현하면 다음의 식을 얻을 수 있다.
여기서
웨이브렛 패킷을 통한 신호의 분해는 근사계수만을 연속적으로 분해하는 이산 웨이브렛 변환(Discrete wavelet transform)에 비해 필터뱅크 측면에서 신호의 고주파주 영역 분해능을 높일 수 있다는 장점이 있다. 그러나 분지 깊이 (Depth)
2.2.2. 개별 최적 트리 선정
개별 데이터의 웨이브렛 최적 트리를 구성하는 것은 기저집합에서 최적의 정규직교 기저(orthonormal basis)를 찾는 것과 같다. 이는 적절한 규준에 따라 웨이브렛 기저의 제거 및 유지를 결정하는 방법으로 수행되며, 이를 위해 특정한 비용함수를 이용한다. 일반적으로 비용함수는 엔트로피 기반의 규준이 사용된다. 정보통신 분야에서 엔트로피는 데이터에 내재되어있는 정보의 양을 의미한다. 따라서 이러한 과정은 최소 정보량을 갖는 웨이브렛 기저 조합으로 신호
여기서 은 노드 (
최종적으로 구해진
[Table 1] Algorithm for best node selection
Algorithm for best node selection
여기서 1≦
2.2.3. 공통 트리 선정
특정 클래스의 데이터들은 통계적으로 유사한 최적트리를 가질 수 있으나, 실질적으로는 같은 클래스라 하더라도 데이터마다 약간씩 다른 트리 구조를 갖는다. 식별 문제에서는 데이터마다 다른 최적트리를 적용시킬 수 없으므로, 개별 훈련 데이터들의 최적트리를 파악하여 모든 클래스에 적용 가능한 공통 최적트리를 구성해야 할 필요가 있다.
공통 최적트리구성을 위해 제안하는 방법은 Fig. 4와 같다. 먼저 각 클래스의 개별 데이터에 대한
그런 다음 선택된 모든 말단노드의 개수를 세어 가장 많이 선택된 말단노드의 순으로 노드번호를 재 정렬한다. 그런 후 사용자가 원하는 개수의 말단노드 수(
이 때 고려해야 할 사항은 웨이브렛 패킷의 최대 분지 깊이 (
예를 들어 512 샘플의 신호를 이용해 웨이브렛 패킷분해 할 경우,
본 연구에 사용한 수중 과도신호의 샘플링 주파수는 44.1kHz이며, 프레임 별 특징 추출을 위해 약 10ms의 시간 창을 갖도록 설계하였다. 따라서 식 (9)에 의해
3.1. 정규혼합모델(GMM, Gaussian mixture model)
제안된 방법의 검증을 위해 정규혼합모델을 이용한 수중과도신호의 식별을 수행하였다. 정규혼합모델은 음성신호처리 분야의 화자인식 등에 사용되는 패턴인식 기법으로,
여기서
서론에서 언급한바와 같이 음원이 알려진 수중 과도신호는 데이터취득의 현실적 제약이 크다. 따라서 데이터 재 샘플링을 이용한 성능평가를 통해 인식 결과의 신뢰도를 높일 필요가 있다. 이를 위해 교차검증(Cross validation)을 응용한 성능평가를 수행하였다. 교차검증은 데이터 집합을 k개의 부분집합으로 나눈 후,
실험에 사용한 수중과도신호 집합은 비 생물 수중 과도신호로서 어뢰 발사관, 체인, 부이, 빙하 갈라짐, 탄성파 탐사신호의 총 5가지 클래스로 구성되어 있으며 각 클래스는 모두 9개씩의 서로 다른 데이터로 구성되어 있다. 이들은 약 150ms ~ 400ms이내의 지속시간을 가지며 단발성, 비주기성의 특징을 보인다. Fig. 5는 실험에 사용된 각 클래스의 대표적인 데이터의 파형을 나타낸다. 각 신호의 샘플링 주파수는 44.1kHz, 양자화 레벨은 16비트이다.
수중 과도신호 집합의 공통 트리를 구성하기위해 웨이브렛 변환에 널리 사용되는 Daubechies(
이러한 결과는 멜-스케일 필터뱅크와 크게 다른 필터뱅크 구성을 만들어 낸다. 도출된 최적 트리를 이용해 웨이브렛 패킷분해를 수행하면 비균일 필터뱅크 출력에 상응하는 웨이브렛 계수들을 구할 수 있으며, 각 단의 출력신호의 에너지를 계산하여 스펙트럼을 구한다. 이를 이용하여 캡스트럼 분석을 수행하며 결과적으로 수중 천이신호의 WPCC를 얻을 수 있다.
Fig. 7(a)는 체인 신호 중의 하나를 단구간 푸리에 변환(STFT, short-time Fourier transform)한 결과 이며, Fig. 7(b)와 (c)는 그것에 프리 엠퍼시스를 적용한 후, 파워스펙트럼의 Mel-filter 출력과 비 균일 웨이브렛 패킷 분해 신호의 에너지를 나타낸 그림이다. Fig. 7(b)와 (c)는 필터 순서에 따라 밴드 폭이 서로 다르므로 결과 값이 서로 다른 양상을 나타내고 있다. 두 경우 모두 단구간 푸리에변환의 특정 주파수 대역이 확대 및 축소된 것과 같은 결과를 나타내고 있다. 최종적으로 Fig. 7(b)와 (c)의 결과를 이용해 수중 과도신호의 12차 캡스트럼 계수를 추출하였으며 정규혼합 모델(GMM)을 이용한 인식을 수행하였다.
정규혼합모델(GMM)을 이용한 인식을 수행한 결과를 정리하여 Table 2에 나타내었다. 앞서 언급한 바와 같이 훈련 데이터의 개수(
[Table 2] Comparison of recognition error rate of MFCC and WPCC [%]
Comparison of recognition error rate of MFCC and WPCC [%]
먼저
성능이 비교적 대등한 MFCC와 WPCC-
인식 결과를 분석해 보면, 특정 데이터의 인식 오류가 반복해서 나타나는 현상을 발견할 수 있다. 가령 Tset 3에서 MFCC의 오류는 대부분 체인음이 어뢰 발사관음으로 잘못 인식되어 발생한 결과 였으며, WPCC-
제한된 데이터 베이스를 이용한 인식에서는 데이터 집단의 특성을 반영하는 특징 추출방법의 효과가 극대 될 수 있다. 최근 음성 인식 특징 추출을 위해 제안된 바 있는 WPCC는 캡스트럼 계수 추출 단계에서 데이터 종속적인 필터뱅크를 구성할 수 있다. 따라서 본 논문에서는 일반적으로 제한된 데이터 베이스 환경에서 인식을 수행하게 되는 수중 천이신호 인식에 WPCC를 적용해 보았으며 기존 수중 천이신호 인식에 사용되고 있는 MFCC 방법과 인식률을 비교하였다.
다섯 가지 클래스의 수중 천이 신호 데이터를 이용하여 WPCC를 추출하였으며, 정규 가우시안 혼합 모델을 이용하여 인식을 수행하였다. 이때, 모 웨이브렛 선정이 인식률에 미칠 수 있으므로
본 논문에서 사용한 모든 데이터를 특징벡터 수준에서 분석해 본 결과 어뢰 발사관음과 체인음의 특성이 매우 유사한 것으로 나타났다. 특히 MFCC의 경우 주로 이 두 가지 클래스의 데이터 인식 과정에서 인식 오류를 보였는데, WPCC를 사용할 경우 오류가 많이 개선된 것으로 나타났다. 분산 분석결과, 이는 WPCC가 MFCC에 비해 특징벡터의 변별력을 약 4% 높였기 때문으로 나타났다.
특징벡터 추출을 위한 효과적인 웨이브렛 최적트리 형성에 관해서는 지속적인 연구가 필요하다. 특히 웨이브렛 트리구조 구성이 인식률에 큰 영향을 미칠 수 있으므로 많은 연구가 필요하다. 또한 보다 강인한 수중 신호의 인식을 위해서는 다양한 수중 환경, 특히 수중 배경소음이 특징벡터와 인식률에 미치는 영향에 대해서도 지속적인 연구가 필요하다.