麥克風陣列與波束形成
麥克風陣列是指由兩個或者多個麥克風按照一定的幾何結構排列而成的陣列,按照拓撲結構不同,麥克風陣列可以分為均勻線性陣列,非均勻線性陣列,非線性陣列,環(huán)形陣列,二維(平面)陣列,三維(立體)陣列等等
對各陣元上的信號進行濾波,再相加起來就是簡單的波束形成,
聲源定位算法大致分為三類:基于可控波束形成器的聲源定位算法(基于最大輸出功率的可控波束形成技術)、基于到達時間差的聲源定位算法(TDOA)、基于高分辨率譜估計的聲源定位算法。
(1)基于最大輸出功率的可控波束形成技術
該方法對麥克風所接收到的聲源信號濾波并加權求和來形成波束,進而通過搜索聲源可能的位置來引導該波束,最終使波束輸出功率最大的點就是聲源的位置
延遲和波束形成法DSB(delay-and-sum beamforming)
該方法對麥克風信號采用時間移位以補償聲源到麥克風的傳播延時,并通過相加求平均來獲取陣列的輸出,但是DSB形成的波束其主瓣的寬度與信號的頻率相關,這在目標聲源偏離波束最大增益方向時會引起語音的失真。
濾波和波束形成FSB(filter-and-sum beamforming)
該方法在DSB進行時間校正的同時,還對信號進行了濾波,通過一定長度的FIR濾波器來實現(xiàn)頻率不變的空間響應特性,也稱恒定指向波束形成(CDB),但是通常需要大數(shù)量的麥克風才能達到較好的消噪效果,此外它適合于消除非相干噪聲或散射噪聲,而對相干噪聲則沒有消除能力,因此對于方向性噪聲和房間混響等不能有效消除。
上述兩種算法在濾波器設計完成后不能變動,因而稱為固定波束形成器,然而在某些環(huán)境下,信號和噪聲的統(tǒng)計特性是隨時間變化的,這就需要利用自適應的波束形成方法
自適應波束形成基于MVDR(最小方差無畸變響應)準則,原理是在保證期望方向信號不變的條件下,使陣列的輸出功率到達最小來抑制噪聲
可控波束形成技術本質上是一種最大似然估計,他需要聲源和環(huán)境噪聲的先驗知識,在實際使用中,這種先驗知識往往很難獲得,此外,最大似然估計是非線性最優(yōu)化問題,這類目標函數(shù)往往有多個極點,且該方法對初始點的選取也很敏感,因此使用傳統(tǒng)的梯度下降算法往往容易陷于局部極小點,從而不能找到全局最優(yōu)點,若要通過其他搜索方法找到全局最優(yōu)點,就會極大的增加復雜度。
(2)基于TDOA的定位方法
基于TDOA的定位方法是一種雙步定位方法,該方法首先估計信號到達不同麥克風之間的時間差,進而通過幾何關系來確定聲源的位置。
對于該方法,穩(wěn)健的時延估計是進行準確定位的基礎,現(xiàn)有的TDE(時延估計方法)分為兩類:
利用互相關函數(shù)的時延估計方法
如:GCC(廣義互相關法)、最大似然加權法(ML)、互功率譜相位(CSP)
通過求取路徑的脈沖響應(或傳遞函數(shù))來獲取TDOA估計
如:LMS(自適應最小均方)、EVD(子空間分解或特征值分解法)、ATF比(基于傳遞函數(shù)比)
鑒于GCC受混響的影響比較嚴重,可以在GCC前端加入CEP(倒譜預濾波)來改進GCC算法,通過對通道特性的分析,有目的地去除信號中受反射影響嚴重的部分,再將預濾波后的信號通過GCC方法進行TDE,這樣能有效降低混響的影響,而且也具有一定的扛噪性能。
GCC使用的加權函數(shù)有CC、Roth、SCOT、PHAT、Eckart、
可以看出GCC方法是建立在非混響模型基礎上的,由于受模型誤差的影響,他不能正確辨識多個說話人和方向性的干擾噪聲,并且更傾向于估計比較強的信號的TDOA值,所以GCC方法只能用于低混響和非相關噪聲的場合。

時延估計技術需要從三個方面評估實用性,對定源和動源的跟蹤能力、在不同混響和信噪比環(huán)境下的穩(wěn)健性、算法的計算量
(3)基于高分辨率譜估計的定位方法
該方法來源于一些現(xiàn)代高分辨率譜估計技術,如AR(自回歸模型)、MV(最小方差譜估計)、MUSIC(多重信號分類)他們利用EVD(特征值分解)將數(shù)據的協(xié)方差矩陣分解為信號子空間和噪聲子空間,然后找出與噪聲子空間正交的方向矢量來獲得聲源的方向估計
該算法不會受到信號采樣頻率的限制,并且在一定條件下可以實現(xiàn)任意定位精度,但是1)該算法是利用相關矩陣中最大幾個特征值來判定聲源位置的,一旦有方向性噪聲的出現(xiàn),且其能量與聲源相差不大,算法有時會找到方向性噪聲的方向,2)另外房間的反射作用使信號和干擾之間有一定的相關性,從而極大降低了該方法的有效性,3)這一方法需要對整個空間進行搜索來確定聲源的位置,且其估計精度與空間的細分程度有關,計算復雜度偏高