一、利用可變長度上下文信息的聲學(xué)模型
DL/HMM混合模型是ASR中成功的第一個(gè)深度學(xué)習(xí)體系,仍然是工業(yè)中使用的主流模型。DL/HMM夠利用上下文信息是其優(yōu)越性能的一個(gè)重要因素。在大多數(shù)系統(tǒng)中,9~13幀的窗口(overlap 4~6幀)的特征用作DNN的輸入,以利用來自相鄰幀的信息以提高精度。
最優(yōu)的上下文長度是受語速和音調(diào)影響的,因此需要變長的上下文信息。
A. RNNs
前饋DNNS只考慮固定長度滑動(dòng)窗口中的信息,因此不能利用語音信號(hào)中的長距離的相關(guān)性。而RNNs能夠記錄歷史狀態(tài),因此能根據(jù)之前的記憶對(duì)當(dāng)前進(jìn)行預(yù)測。
time-frequency LSTM同時(shí)對(duì)時(shí)域和頻域掃描,
由于Bi-LSTM需要處理反向的依賴,所以需要整句話說完才能進(jìn)行依賴關(guān)系的處理,因此無法用于實(shí)時(shí)識(shí)別。
因此提出如下兩種改進(jìn)的LSTM:
- 時(shí)延控制LSTM(LC-BLSTM):最多有N個(gè)幀的前瞻
- 行卷積LSTM(RC-BLSTM):集成了前向N幀中的信息
選擇恰當(dāng)?shù)腘能夠平衡實(shí)時(shí)性與時(shí)延。
B. CNNs
- CLDNN
- TDNN
- CDL
二、CTC 聲學(xué)模型總結(jié)
1. CTC對(duì)數(shù)據(jù)有什么要求?
CTC要求訓(xùn)練數(shù)據(jù)量必須要大,因?yàn)镃TC不是對(duì)逐幀進(jìn)行標(biāo)注,而是對(duì)整個(gè)序列,需要更多的信息來訓(xùn)練網(wǎng)絡(luò)。
2. CTC和CE相比有什么優(yōu)勢?
- 在數(shù)據(jù)量足夠大的時(shí)候,引入上下文依賴的輸出單元的CTC效果要比CE好;
- 由于CTC的輸出單元一般是音素或者是大于音素級(jí)別的,因此CTC可以采用更大的步長。假設(shè)原來以10ms作為一幀,現(xiàn)在將3個(gè)10ms的語音幀進(jìn)行stack輸入CTC,這樣做的話,評(píng)價(jià)模型準(zhǔn)確度,以及解碼時(shí)會(huì)比原來快3倍;
3. CTC對(duì)字符進(jìn)行預(yù)測的優(yōu)勢:
- 更加的端到端,能夠省去詞典的構(gòu)建,去掉了專家知識(shí)對(duì)系統(tǒng)的影響;
- 對(duì)于帶有口音的語音更加健壯,因?yàn)橹苯宇A(yù)測字符受音素發(fā)音影響更??;
- 還有人研究了比字符級(jí)別大,但是比詞級(jí)別小的輸出單元;
4. CTC基本輸出單元的確定,Gram-CTC能夠?qū)W習(xí)目標(biāo)序列的合適的分解:
Gram-CTC是基于字符的,但允許在每個(gè)時(shí)間步長輸出可變數(shù)量的字符;這不僅提高了建模的靈活性,還提高了最終ASR系統(tǒng)的精度。
5. CTC對(duì)word預(yù)測,如何處理OOV:
- 以詞作為CTC基本輸出單元,難以處理未登錄詞OOV;結(jié)合字符級(jí)CTC,在word-based CTC產(chǎn)生OOV時(shí),調(diào)用char-based CTC對(duì)該片段進(jìn)行預(yù)測;
- 在訓(xùn)練時(shí),通過將OOV分解成頻繁的單詞和字符的混合單元序列;在測試時(shí),使用greedy search來在一步中生成假設(shè),而不需要使用兩階段處理;
6. CTC訓(xùn)練技巧:
為了避免網(wǎng)絡(luò)初始化不好的問題,可以先將訓(xùn)練數(shù)據(jù)分為短句【易訓(xùn)】和長句【難訓(xùn)】,先用短句對(duì)模型進(jìn)行訓(xùn)練,然后用長句對(duì)模型進(jìn)行訓(xùn)練,之后,隨機(jī)選擇樣本對(duì)模型進(jìn)行訓(xùn)練;能顯著提高CTC收斂的效果。
7. CTC解碼優(yōu)化:
CTC輸出的序列中,大部分都是blank標(biāo)簽;對(duì)blank標(biāo)簽進(jìn)行搜索是多余的,因此提出了Phone Synchronous Decoding,即,在CTC解碼過程中,不搜索blank段來加速解碼過程。獲得了2~3倍的加速,同時(shí)沒有準(zhǔn)確度的損失。
8. CTC延時(shí)效應(yīng):
CTC預(yù)測的label相比于label真實(shí)的位置會(huì)滯后一些,因此CTC無法處理實(shí)時(shí)的問題。有人提出限制前向-后向搜索時(shí)路徑的數(shù)目來降低延遲,效果不明顯。
9. CTC幀獨(dú)立假設(shè):
CTC的幀與幀之間獨(dú)立假設(shè)受到了很大的質(zhì)疑。有幾種嘗試通過放寬或消除這樣的假設(shè)來改進(jìn)CTC,Attention。
最近受到CTC的啟發(fā),lattice-free maximum mutual information (LFMMI) 訓(xùn)練CTC。
AM發(fā)展主線:DNN – LSTM – CTC