情感語音識別

  1. 語音信號特征:
    能量 基音頻率 共振峰

  2. 處理階段:

    • 數(shù)字化預(yù)處理
    • 端點檢測
    • 提取語音特征、計算
  3. 能量分短時能量和短時平均振幅能量
    短時能量對高電平敏感

  4. 基音頻率
    聲帶振動的周期性頻率
    高興和憤怒的基音頻率都比較高
    基音是濁音的獨有特性,所以需要判斷清濁音

濁音又稱有聲語言,攜帶者語言中大部分的能量,濁音在時域上呈現(xiàn)出明顯的周期性;而清音類似于白噪聲,沒有明顯的周期性。發(fā)濁音時,氣流通過聲門使聲帶產(chǎn)生張弛震蕩式振動,產(chǎn)生準周期的激勵脈沖串。這種聲帶振動的頻率稱為基音頻率,相應(yīng)的周期就成為基音周期。

基音頻率與個人聲帶的長短、薄厚、韌性、勁度和發(fā)音習(xí)慣等有關(guān)系,在很大程度上反應(yīng)了個人的特征。此外,基音頻率還跟隨著人的性別、年齡不同而有所不同。一般來說,男性說話者的基音頻率較低,而女性說話者和小孩的基音頻率相對較高。

第一共振峰對基音頻率影響也很大,所以需要經(jīng)過端點檢測和通過帶通濾波器預(yù)處理

  1. 判斷清濁音
    利用短時平均振幅能量計算能量門限M
    如果某一幀的能量<M,判定為清音,基音頻率為0
    如果某一幀的能量>M,判定為濁音,基音頻率用自相關(guān)法計算

  2. 共振峰

共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道(共振腔)的物理特征。

不同情感發(fā)音的共振峰位置不同

  1. SVM算法
    支持向量機
    特點是將低維度的非線性的語音特征映射到高維度的線性的空間,將不可計算的低維度向量轉(zhuǎn)化為高維度的空間向量,構(gòu)造一個分類超平面。

將四種情感兩兩作為子類分類器,憤怒和平靜,憤怒和高興......統(tǒng)計票數(shù)

  1. 訓(xùn)練模型
    提取短時平均能量最大值、最小值、均值、變化率、變化率的變化率
    提取基音頻率的最大值,最小值,均值、差分、方差
    提取第一共振峰的均值、方差、變化率
    將等到的特征參數(shù)歸一化投入訓(xùn)練
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • reference 《spoken language processing》 1 語音基礎(chǔ) 名詞解釋 pitch ...
    藝術(shù)叔閱讀 17,089評論 2 48
  • 承接前面的《淺談機器學(xué)習(xí)基礎(chǔ)》、《淺談深度學(xué)習(xí)基礎(chǔ)》和《淺談自然語言處理基礎(chǔ)》,主要參考了《解析深度學(xué)習(xí):語音識別...
    我偏笑_NSNirvana閱讀 24,045評論 6 66
  • 圖像識別意義: 圖像是指物體的描述信息,數(shù)字圖像是一個物體的數(shù)字表示。視覺是人類感知外部世界的最重要手段,據(jù)統(tǒng)計,...
    木木口丁閱讀 8,823評論 1 21
  • Tutorial - 1 (a) 為什么e時代需要生物特征識別我們在信息時代面臨諸多問題,如病毒、黑客、計算機盜竊...
    ShellyWhen閱讀 2,771評論 0 4
  • 表格部分筆記: *Tabla Gráfico de barra Gráfico de linea Modelo (...
    傾蓋如故CD閱讀 753評論 0 1

友情鏈接更多精彩內(nèi)容