一区二区久久久,亚洲av激情五月天,久久性爰视频免费

一、MFCC

幾乎照搬語音特征參數(shù)MFCC提取過程詳解
參考CSDN語音信號處理之（四）梅爾頻率倒譜系數(shù)（MFCC）

1.定義
MFCCs（Mel Frequency Cepstral Coefficents）：是在Mel標(biāo)度頻率域提取出來的倒譜參數(shù)，是一種在自動語音和說話人識別中廣泛使用的特征。Mel標(biāo)度描述了人耳頻率的非線性特性，它與頻率的關(guān)系可用下式近似表示：

上式中f為頻率，單位為Hz。下圖展示了Mel頻率與線性頻率的關(guān)系：

在Mel頻域內(nèi)，人對音調(diào)的感知度為線性關(guān)系。舉例來說，如果兩段語音的Mel頻率相差兩倍，則人耳聽起來兩者的音調(diào)也相差兩倍。

2.流程圖

3.預(yù)加重
預(yù)加重處理其實是將語音信號通過一個高通濾波器： $H(z)=1-\mu z^{-1}$
$\mu$ 的取值介于0.9-1.0之間，通常取0.97。

4.分幀
語音信號在宏觀上是不平穩(wěn)的，在微觀上是平穩(wěn)的（傅里葉變換要求輸入的信號的平穩(wěn)的），具有短時平穩(wěn)性（10---30ms內(nèi)可以認(rèn)為語音信號近似不變），因此我們要把語音信號分為一些短段來進(jìn)行處理，每一個短段稱為一幀（CHUNK）。
幀定義為：N個采樣點集合成一個觀測單位。
通常情況下N的值為256或512，涵蓋的時間約為20~30ms左右。為了避免相鄰兩幀的變化過大，因此會讓兩相鄰幀之間有一段重疊區(qū)域，此重疊區(qū)域包含了M個取樣點，通常M的值約為N的1/2或1/3。通常語音識別所采用語音信號的采樣頻率為8KHz或16KHz，以8KHz來說，若幀長度為256個采樣點，則對應(yīng)的時間長度是256/8000×1000=32ms。
上面的說法是用采樣點來描述的，也有直接用幀長進(jìn)行描述的，比如：幀長20ms，幀移10ms。

5.加窗
將每一幀乘以漢明窗，以增加幀左端和右端的連續(xù)性。

之后我們會對漢明窗中的數(shù)據(jù)進(jìn)行FFT，它假設(shè)一個窗內(nèi)的信號是代表一個周期的信號（也就是說窗的左端和右端應(yīng)該大致能連在一起）。而通常一小段音頻數(shù)據(jù)沒有明顯的周期性，加上漢明窗后，數(shù)據(jù)形狀就有點周期的感覺了。
漢明窗的公式如下：
$\left\{\begin{matrix}W(n,\alpha)=(1-\alpha)-\alpha*cos[\frac{2\pi n}{N-1}], 0\leq n \leq N-1 \\ 0,n=else \end{matrix}\right.$
通常情況下， $\alpha$ 取0.46。

6.FFT
FFT是快速傅里葉變換的縮寫。
由于信號在時域上的變換通常很難看出信號的特性，所以通常將它轉(zhuǎn)換為頻域上的能量分布來觀察，不同的能量分布，就能代表不同語音的特性。所以在乘上漢明窗后，每幀還必須再經(jīng)過快速傅里葉變換以得到在頻譜上的能量分布。對分幀加窗后的各幀信號進(jìn)行快速傅里葉變換得到各幀的頻譜。并對語音信號的頻譜取模平方得到語音信號的功率譜。設(shè)語音信號的DFT為：
$X_{a}(k)\sum_{n=0}^{N-1}x(n)e^{-j2\pi nk/N},0\leq k \leq N$
式中x(n)為輸入的語音信號，N表示傅里葉變換的點數(shù)。

7.三角帶通濾波器
將能量譜通過一組Mel尺度的三角形濾波器組，定義一個有M個濾波器的濾波器組（濾波器的個數(shù)和臨界帶的個數(shù)相近），采用的濾波器為三角濾波器，中心頻率為f(m),m=1,2,...,M。M通常取22-26。各f(m)之間的間隔隨著m值的減小而縮小，隨著m值的增大而增寬，如圖所示：

三角濾波器的頻率響應(yīng)定義為:

式中
三角帶通濾波器有兩個主要目的：
1.對頻譜進(jìn)行平滑化，并消除諧波的作用，突顯原先語音的共振峰（因此一段語音的音調(diào)或音高，是不會呈現(xiàn)在 MFCC 參數(shù)內(nèi)，換句話說，以 MFCC 為特征的語音辨識系統(tǒng)，并不會受到輸入語音的音調(diào)不同而有所影響）。
2.降低運算量。

8.每個濾波器組輸出
計算每個濾波器組輸出的對數(shù)能量為：

9.經(jīng)離散余弦變換（DCT）得到MFCC系數(shù)：

將上述的對數(shù)能量帶入離散余弦變換，求出L階的Mel-scale Cepstrum參數(shù)。L階指MFCC系數(shù)階數(shù)，通常取12-16。這里M是三角濾波器個數(shù)。

10.對數(shù)能量
此外，一幀的音量（即能量），也是語音的重要特征，而且非常容易計算。因此，通常再加上一幀的對數(shù)能量（定義：一幀內(nèi)信號的平方和，再取以10為底的對數(shù)值，再乘以10）使得每一幀基本的語音特征就多了一維，包括一個對數(shù)能量和剩下的倒頻譜參數(shù)。
因此，MFCC的維度常用的是13（12+1）加上一階差分和二階差分，一共39。

11.動態(tài)差分參數(shù)的提?。òㄒ浑A差分和二階差分）
標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語音參數(shù)的靜態(tài)特性，語音的動態(tài)特性可以用這些靜態(tài)特征的差分譜來描述。實驗證明：把動、靜態(tài)特征結(jié)合起來才能有效提高系統(tǒng)的識別性能。差分參數(shù)的計算可以采用下面的公式：

式中,dt表示第t個一階差分，Ct表示第t個倒譜系數(shù)，Q表示倒譜系數(shù)的階數(shù)，K表示一階導(dǎo)數(shù)的時間差，可取1或2。將上式的結(jié)果再代入就可以得到二階差分的參數(shù)。

二、FBank

參考語音識別（五）——Mel-Frequency Analysis, FBank, 語音識別的評價指標(biāo), 聲學(xué)模型進(jìn)階

Filter bank和MFCC的計算步驟基本一致，只是沒有做IDFT而已。
FBank與MFCC對比：
1.計算量：MFCC是在FBank的基礎(chǔ)上進(jìn)行的，所以MFCC的計算量更大
2.特征區(qū)分度：FBank特征相關(guān)性較高（相鄰濾波器組有重疊），MFCC具有更好的判別度，這也是在大多數(shù)語音識別論文中用的是MFCC，而不是FBank的原因
3.使用對角協(xié)方差矩陣的GMM由于忽略了不同特征維度的相關(guān)性，MFCC更適合用來做特征。
4.DNN/CNN可以更好的利用這些相關(guān)性，使用fbank特征可以更多地降低WER。

參考知乎的答案：語音識別，語譜圖對比MFCC、Fbank等特征，在識別方面有哪些優(yōu)勢？
DNN做聲學(xué)模型時，一般用filterbank feature，不用mfcc，因為fbank信息更多 (mfcc是由mel fbank有損變換得到的）。mfcc一般是GMM做聲學(xué)模型時用的，因為通常GMM假設(shè)是diagonal協(xié)方差矩陣，而cepstral coefficient更符合這種假設(shè)。linear spectrogram里面冗余信息太多了，維度也高，所以一般也不用。

三、LPC

LPC：Linear Prediction Coefficient線性預(yù)測系數(shù)。
對語音信號進(jìn)行線性預(yù)測分析的基本思想是：一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近，通過線性預(yù)測到的采樣在最小均方誤差意義上逼近實際語音采樣，可以求取一組唯一的預(yù)測系數(shù)。預(yù)測系數(shù)就是線性組合中所用的加權(quán)系數(shù)，這種線性預(yù)測分析最早是用于語音編碼中。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

MFCC、FBank、LPC總結(jié)

MFCC、FBank、LPC總結(jié)

一、MFCC

二、FBank

三、LPC

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

MFCC、FBank、LPC總結(jié)

一、MFCC

二、FBank

三、LPC

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

MFCC、FBank、LPC總結(jié)

三、LPC