MFCC、FBank、LPC總結(jié)

一、MFCC

幾乎照搬語音特征參數(shù)MFCC提取過程詳解
參考CSDN語音信號處理之(四)梅爾頻率倒譜系數(shù)(MFCC)

1.定義
MFCCs(Mel Frequency Cepstral Coefficents):是在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),是一種在自動語音和說話人識別中廣泛使用的特征。Mel標(biāo)度描述了人耳頻率的非線性特性,它與頻率的關(guān)系可用下式近似表示:


上式中f為頻率,單位為Hz。下圖展示了Mel頻率與線性頻率的關(guān)系:

在Mel頻域內(nèi),人對音調(diào)的感知度為線性關(guān)系。舉例來說,如果兩段語音的Mel頻率相差兩倍,則人耳聽起來兩者的音調(diào)也相差兩倍。

2.流程圖

3.預(yù)加重
預(yù)加重處理其實是將語音信號通過一個高通濾波器:H(z)=1-\mu z^{-1}
\mu的取值介于0.9-1.0之間,通常取0.97。

4.分幀
語音信號在宏觀上是不平穩(wěn)的,在微觀上是平穩(wěn)的(傅里葉變換要求輸入的信號的平穩(wěn)的),具有短時平穩(wěn)性(10---30ms內(nèi)可以認(rèn)為語音信號近似不變),因此我們要把語音信號分為一些短段來進(jìn)行處理,每一個短段稱為一幀(CHUNK)。
幀定義為:N個采樣點集合成一個觀測單位。
通常情況下N的值為256或512,涵蓋的時間約為20~30ms左右。為了避免相鄰兩幀的變化過大,因此會讓兩相鄰幀之間有一段重疊區(qū)域,此重疊區(qū)域包含了M個取樣點,通常M的值約為N的1/2或1/3。通常語音識別所采用語音信號的采樣頻率為8KHz或16KHz,以8KHz來說,若幀長度為256個采樣點,則對應(yīng)的時間長度是256/8000×1000=32ms。
上面的說法是用采樣點來描述的,也有直接用幀長進(jìn)行描述的,比如:幀長20ms,幀移10ms。

5.加窗
將每一幀乘以漢明窗,以增加幀左端和右端的連續(xù)性。

之后我們會對漢明窗中的數(shù)據(jù)進(jìn)行FFT,它假設(shè)一個窗內(nèi)的信號是代表一個周期的信號(也就是說窗的左端和右端應(yīng)該大致能連在一起)。而通常一小段音頻數(shù)據(jù)沒有明顯的周期性,加上漢明窗后,數(shù)據(jù)形狀就有點周期的感覺了。
漢明窗的公式如下:
\left\{\begin{matrix}W(n,\alpha)=(1-\alpha)-\alpha*cos[\frac{2\pi n}{N-1}], 0\leq n \leq N-1 \\ 0,n=else \end{matrix}\right.
通常情況下,\alpha取0.46。

6.FFT
FFT是快速傅里葉變換的縮寫。
由于信號在時域上的變換通常很難看出信號的特性,所以通常將它轉(zhuǎn)換為頻域上的能量分布來觀察,不同的能量分布,就能代表不同語音的特性。所以在乘上漢明窗后,每幀還必須再經(jīng)過快速傅里葉變換以得到在頻譜上的能量分布。對分幀加窗后的各幀信號進(jìn)行快速傅里葉變換得到各幀的頻譜。并對語音信號的頻譜取模平方得到語音信號的功率譜。設(shè)語音信號的DFT為:
X_{a}(k)\sum_{n=0}^{N-1}x(n)e^{-j2\pi nk/N},0\leq k \leq N
式中x(n)為輸入的語音信號,N表示傅里葉變換的點數(shù)。

7.三角帶通濾波器
將能量譜通過一組Mel尺度的三角形濾波器組,定義一個有M個濾波器的濾波器組(濾波器的個數(shù)和臨界 帶的個數(shù)相近),采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,...,M。M通常取22-26。各f(m)之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬,如圖所示:


三角濾波器的頻率響應(yīng)定義為:

式中
三角帶通濾波器有兩個主要目的:
1.對頻譜進(jìn)行平滑化,并消除諧波的作用,突顯原先語音的共振峰(因此一段語音的音調(diào)或音高,是不會呈現(xiàn)在 MFCC 參數(shù)內(nèi),換句話說,以 MFCC 為特征的語音辨識系統(tǒng),并不會受到輸入語音的音調(diào)不同而有所影響)。
2.降低運算量。

8.每個濾波器組輸出
計算每個濾波器組輸出的對數(shù)能量為:

9.經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):


將上述的對數(shù)能量帶入離散余弦變換,求出L階的Mel-scale Cepstrum參數(shù)。L階指MFCC系數(shù)階數(shù),通常取12-16。這里M是三角濾波器個數(shù)。

10.對數(shù)能量
此外,一幀的音量(即能量),也是語音的重要特征,而且非常容易計算。因此,通常再加上一幀的對數(shù)能量(定義:一幀內(nèi)信號的平方和,再取以10為底的對數(shù)值,再乘以10)使得每一幀基本的語音特征就多了一維,包括一個對數(shù)能量和剩下的倒頻譜參數(shù)。
因此,MFCC的維度常用的是13(12+1)加上一階差分和二階差分,一共39。

11.動態(tài)差分參數(shù)的提?。òㄒ浑A差分和二階差分)
標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語音參數(shù)的靜態(tài)特性,語音的動態(tài)特性可以用這些靜態(tài)特征的差分譜來描述。實驗證明:把動、靜態(tài)特征結(jié)合起來才能有效提高系統(tǒng)的識別性能。差分參數(shù)的計算可以采用下面的公式:


式中,dt表示第t個一階差分,Ct表示第t個倒譜系數(shù),Q表示倒譜系數(shù)的階數(shù),K表示一階導(dǎo)數(shù)的時間差,可取1或2。將上式的結(jié)果再代入就可以得到二階差分的參數(shù)。

二、FBank

參考語音識別(五)——Mel-Frequency Analysis, FBank, 語音識別的評價指標(biāo), 聲學(xué)模型進(jìn)階

Filter bank和MFCC的計算步驟基本一致,只是沒有做IDFT而已。
FBank與MFCC對比:
1.計算量:MFCC是在FBank的基礎(chǔ)上進(jìn)行的,所以MFCC的計算量更大
2.特征區(qū)分度:FBank特征相關(guān)性較高(相鄰濾波器組有重疊),MFCC具有更好的判別度,這也是在大多數(shù)語音識別論文中用的是MFCC,而不是FBank的原因
3.使用對角協(xié)方差矩陣的GMM由于忽略了不同特征維度的相關(guān)性,MFCC更適合用來做特征。
4.DNN/CNN可以更好的利用這些相關(guān)性,使用fbank特征可以更多地降低WER。

參考知乎的答案:語音識別,語譜圖對比MFCC、Fbank等特征,在識別方面有哪些優(yōu)勢?
DNN做聲學(xué)模型時,一般用filterbank feature,不用mfcc,因為fbank信息更多 (mfcc是由mel fbank有損變換得到的)。mfcc一般是GMM做聲學(xué)模型時用的,因為通常GMM假設(shè)是diagonal協(xié)方差矩陣,而cepstral coefficient更符合這種假設(shè)。linear spectrogram里面冗余信息太多了,維度也高,所以一般也不用。

三、LPC

LPC:Linear Prediction Coefficient線性預(yù)測系數(shù)。
對語音信號進(jìn)行線性預(yù)測分析的基本思想是:一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近,通過線性預(yù)測到的采樣在最小均方誤差意義上逼近實際語音采樣,可以求取一組唯一的預(yù)測系數(shù)。預(yù)測系數(shù)就是線性組合中所用的加權(quán)系數(shù),這種線性預(yù)測分析最早是用于語音編碼中。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容