語音信號特征:
能量 基音頻率 共振峰-
處理階段:
- 數(shù)字化預(yù)處理
- 端點檢測
- 提取語音特征、計算
能量分短時能量和短時平均振幅能量
短時能量對高電平敏感基音頻率
聲帶振動的周期性頻率
高興和憤怒的基音頻率都比較高
基音是濁音的獨有特性,所以需要判斷清濁音
濁音又稱有聲語言,攜帶者語言中大部分的能量,濁音在時域上呈現(xiàn)出明顯的周期性;而清音類似于白噪聲,沒有明顯的周期性。發(fā)濁音時,氣流通過聲門使聲帶產(chǎn)生張弛震蕩式振動,產(chǎn)生準周期的激勵脈沖串。這種聲帶振動的頻率稱為基音頻率,相應(yīng)的周期就成為基音周期。
基音頻率與個人聲帶的長短、薄厚、韌性、勁度和發(fā)音習(xí)慣等有關(guān)系,在很大程度上反應(yīng)了個人的特征。此外,基音頻率還跟隨著人的性別、年齡不同而有所不同。一般來說,男性說話者的基音頻率較低,而女性說話者和小孩的基音頻率相對較高。
第一共振峰對基音頻率影響也很大,所以需要經(jīng)過端點檢測和通過帶通濾波器預(yù)處理
判斷清濁音
利用短時平均振幅能量計算能量門限M
如果某一幀的能量<M,判定為清音,基音頻率為0
如果某一幀的能量>M,判定為濁音,基音頻率用自相關(guān)法計算共振峰
共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。
不同情感發(fā)音的共振峰位置不同
- SVM算法
支持向量機
特點是將低維度的非線性的語音特征映射到高維度的線性的空間,將不可計算的低維度向量轉(zhuǎn)化為高維度的空間向量,構(gòu)造一個分類超平面。
將四種情感兩兩作為子類分類器,憤怒和平靜,憤怒和高興......統(tǒng)計票數(shù)
- 訓(xùn)練模型
提取短時平均能量最大值、最小值、均值、變化率、變化率的變化率
提取基音頻率的最大值,最小值,均值、差分、方差
提取第一共振峰的均值、方差、變化率
將等到的特征參數(shù)歸一化投入訓(xùn)練