青青草社区伊人,久久3骚网

傳統(tǒng)語(yǔ)音識(shí)別方法

傳統(tǒng)語(yǔ)音識(shí)別分為聲學(xué)模型、語(yǔ)言模型、解碼器等幾部分，其中P(O|W) 叫做聲學(xué)模型，描述的是給定詞W時(shí)聲學(xué)觀察為O的概率；P(W)叫做語(yǔ)言模型，負(fù)責(zé)計(jì)算某個(gè)詞序列的概率；P(O)是觀察序列的概率，是固定的，是固定的，所以只看分母部分即可。

端到端語(yǔ)音識(shí)別方法

由于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的建模能力，End-to-end的輸出標(biāo)簽也不再需要像傳統(tǒng)架構(gòu)一樣的進(jìn)行細(xì)分。例如對(duì)于中文，輸出不再需要進(jìn)行細(xì)分為狀態(tài)、音素或者聲韻母，直接將漢字作為輸出即可；對(duì)于英文，考慮到英文單詞的數(shù)量龐大，可以使用字母作為輸出標(biāo)簽。

從這一點(diǎn)出發(fā)，我們可以認(rèn)為神經(jīng)網(wǎng)絡(luò)將聲學(xué)符號(hào)到字符串的映射關(guān)系也一并建模學(xué)習(xí)了出來(lái)，這部分是在傳統(tǒng)的框架中時(shí)詞典所應(yīng)承擔(dān)的任務(wù)。針對(duì)這個(gè)模塊，傳統(tǒng)框架中有一個(gè)專門(mén)的建模單元叫做G2P（grapheme-to-phoneme），來(lái)處理集外詞（out of vocabulary，OOV）。在end-to-end的聲學(xué)模型中，可以沒(méi)有詞典，沒(méi)有OOV，也沒(méi)有G2P。這些全都被建模在一個(gè)神經(jīng)網(wǎng)絡(luò)中。

另外，在傳統(tǒng)的框架結(jié)構(gòu)中，語(yǔ)音需要分幀，加窗，提取特征，包括MFCC、PLP等等。在基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型中，通常使用更裸的Fbank特征。在End-to-en的識(shí)別中，使用更簡(jiǎn)單的特征比如FFT點(diǎn)，也是常見(jiàn)的做法。或許在不久的將來(lái)，語(yǔ)音的采樣點(diǎn)也可以作為輸入，這就是更加徹底的End-to-end聲學(xué)模型。

除此之外，End-to-end的聲學(xué)模型中已經(jīng)帶有了語(yǔ)言模型的信息，它是通過(guò)RNN在輸出序列上學(xué)習(xí)得到的。但這個(gè)語(yǔ)言模型仍然比較弱，如果外加一個(gè)更大數(shù)據(jù)量的語(yǔ)言模型，解碼的效果會(huì)更好。因此，End-to-end現(xiàn)在指聲學(xué)模型部分，等到不需要語(yǔ)言模型的時(shí)候，才是完全的end-to-end。

典型E2E ASR系統(tǒng)是基于transformer架構(gòu)，如下

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

06 語(yǔ)音識(shí)別簡(jiǎn)介

06 語(yǔ)音識(shí)別簡(jiǎn)介

傳統(tǒng)語(yǔ)音識(shí)別方法

端到端語(yǔ)音識(shí)別方法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

06 語(yǔ)音識(shí)別簡(jiǎn)介

傳統(tǒng)語(yǔ)音識(shí)別方法

端到端語(yǔ)音識(shí)別方法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av