一、利用可變長度上下文信息的聲學(xué)模型

DL/HMM混合模型是ASR中成功的第一個(gè)深度學(xué)習(xí)體系，仍然是工業(yè)中使用的主流模型。DL/HMM夠利用上下文信息是其優(yōu)越性能的一個(gè)重要因素。在大多數(shù)系統(tǒng)中，9~13幀的窗口（overlap 4~6幀）的特征用作DNN的輸入，以利用來自相鄰幀的信息以提高精度。

最優(yōu)的上下文長度是受語速和音調(diào)影響的，因此需要變長的上下文信息。

A. RNNs

前饋DNNS只考慮固定長度滑動(dòng)窗口中的信息，因此不能利用語音信號(hào)中的長距離的相關(guān)性。而RNNs能夠記錄歷史狀態(tài)，因此能根據(jù)之前的記憶對(duì)當(dāng)前進(jìn)行預(yù)測。
time-frequency LSTM同時(shí)對(duì)時(shí)域和頻域掃描，

由于Bi-LSTM需要處理反向的依賴，所以需要整句話說完才能進(jìn)行依賴關(guān)系的處理，因此無法用于實(shí)時(shí)識(shí)別。

因此提出如下兩種改進(jìn)的LSTM：

時(shí)延控制LSTM（LC-BLSTM）：最多有N個(gè)幀的前瞻
行卷積LSTM（RC-BLSTM）：集成了前向N幀中的信息
選擇恰當(dāng)?shù)腘能夠平衡實(shí)時(shí)性與時(shí)延。

B. CNNs

CLDNN
TDNN
CDL

二、CTC 聲學(xué)模型總結(jié)

1. CTC對(duì)數(shù)據(jù)有什么要求？

CTC要求訓(xùn)練數(shù)據(jù)量必須要大，因?yàn)镃TC不是對(duì)逐幀進(jìn)行標(biāo)注，而是對(duì)整個(gè)序列，需要更多的信息來訓(xùn)練網(wǎng)絡(luò)。

2. CTC和CE相比有什么優(yōu)勢？

在數(shù)據(jù)量足夠大的時(shí)候，引入上下文依賴的輸出單元的CTC效果要比CE好；

由于CTC的輸出單元一般是音素或者是大于音素級(jí)別的，因此CTC可以采用更大的步長。假設(shè)原來以10ms作為一幀，現(xiàn)在將3個(gè)10ms的語音幀進(jìn)行stack輸入CTC，這樣做的話，評(píng)價(jià)模型準(zhǔn)確度，以及解碼時(shí)會(huì)比原來快3倍；

3. CTC對(duì)字符進(jìn)行預(yù)測的優(yōu)勢：

更加的端到端，能夠省去詞典的構(gòu)建，去掉了專家知識(shí)對(duì)系統(tǒng)的影響；

對(duì)于帶有口音的語音更加健壯，因?yàn)橹苯宇A(yù)測字符受音素發(fā)音影響更??；

還有人研究了比字符級(jí)別大，但是比詞級(jí)別小的輸出單元；

4. CTC基本輸出單元的確定，Gram-CTC能夠?qū)W習(xí)目標(biāo)序列的合適的分解：

Gram-CTC是基于字符的，但允許在每個(gè)時(shí)間步長輸出可變數(shù)量的字符；這不僅提高了建模的靈活性，還提高了最終ASR系統(tǒng)的精度。

5. CTC對(duì)word預(yù)測，如何處理OOV：

以詞作為CTC基本輸出單元，難以處理未登錄詞OOV；結(jié)合字符級(jí)CTC，在word-based CTC產(chǎn)生OOV時(shí)，調(diào)用char-based CTC對(duì)該片段進(jìn)行預(yù)測；

在訓(xùn)練時(shí)，通過將OOV分解成頻繁的單詞和字符的混合單元序列；在測試時(shí)，使用greedy search來在一步中生成假設(shè)，而不需要使用兩階段處理；

6. CTC訓(xùn)練技巧：

為了避免網(wǎng)絡(luò)初始化不好的問題，可以先將訓(xùn)練數(shù)據(jù)分為短句【易訓(xùn)】和長句【難訓(xùn)】，先用短句對(duì)模型進(jìn)行訓(xùn)練，然后用長句對(duì)模型進(jìn)行訓(xùn)練，之后，隨機(jī)選擇樣本對(duì)模型進(jìn)行訓(xùn)練；能顯著提高CTC收斂的效果。

7. CTC解碼優(yōu)化：

CTC輸出的序列中，大部分都是blank標(biāo)簽；對(duì)blank標(biāo)簽進(jìn)行搜索是多余的，因此提出了Phone Synchronous Decoding，即，在CTC解碼過程中，不搜索blank段來加速解碼過程。獲得了2~3倍的加速，同時(shí)沒有準(zhǔn)確度的損失。

8. CTC延時(shí)效應(yīng)：

CTC預(yù)測的label相比于label真實(shí)的位置會(huì)滯后一些，因此CTC無法處理實(shí)時(shí)的問題。有人提出限制前向-后向搜索時(shí)路徑的數(shù)目來降低延遲，效果不明顯。

9. CTC幀獨(dú)立假設(shè)：

CTC的幀與幀之間獨(dú)立假設(shè)受到了很大的質(zhì)疑。有幾種嘗試通過放寬或消除這樣的假設(shè)來改進(jìn)CTC，Attention。

最近受到CTC的啟發(fā)，lattice-free maximum mutual information (LFMMI) 訓(xùn)練CTC。

AM發(fā)展主線：DNN – LSTM – CTC

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

CTC-based AM for ASR總結(jié)

CTC-based AM for ASR總結(jié)

一、利用可變長度上下文信息的聲學(xué)模型

A. RNNs

B. CNNs

二、CTC 聲學(xué)模型總結(jié)

1. CTC對(duì)數(shù)據(jù)有什么要求？

2. CTC和CE相比有什么優(yōu)勢？

3. CTC對(duì)字符進(jìn)行預(yù)測的優(yōu)勢：

4. CTC基本輸出單元的確定，Gram-CTC能夠?qū)W習(xí)目標(biāo)序列的合適的分解：

5. CTC對(duì)word預(yù)測，如何處理OOV：

6. CTC訓(xùn)練技巧：

7. CTC解碼優(yōu)化：

8. CTC延時(shí)效應(yīng)：

9. CTC幀獨(dú)立假設(shè)：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

CTC-based AM for ASR總結(jié)

一、利用可變長度上下文信息的聲學(xué)模型

A. RNNs

B. CNNs

二、CTC 聲學(xué)模型總結(jié)

1. CTC對(duì)數(shù)據(jù)有什么要求？

2. CTC和CE相比有什么優(yōu)勢？

3. CTC對(duì)字符進(jìn)行預(yù)測的優(yōu)勢：

4. CTC基本輸出單元的確定，Gram-CTC能夠?qū)W習(xí)目標(biāo)序列的合適的分解：

5. CTC對(duì)word預(yù)測，如何處理OOV：

6. CTC訓(xùn)練技巧：

7. CTC解碼優(yōu)化：

8. CTC延時(shí)效應(yīng)：

9. CTC幀獨(dú)立假設(shè)：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1. CTC對(duì)數(shù)據(jù)有什么要求？

2. CTC和CE相比有什么優(yōu)勢？

4. CTC基本輸出單元的確定，Gram-CTC能夠?qū)W習(xí)目標(biāo)序列的合適的分解：

5. CTC對(duì)word預(yù)測，如何處理OOV：