06 語(yǔ)音識(shí)別簡(jiǎn)介

傳統(tǒng)語(yǔ)音識(shí)別方法

傳統(tǒng)語(yǔ)音識(shí)別分為聲學(xué)模型、語(yǔ)言模型、解碼器等幾部分,其中P(O|W) 叫做聲學(xué)模型,描述的是給定詞W時(shí)聲學(xué)觀察為O的概率;P(W)叫做語(yǔ)言模型,負(fù)責(zé)計(jì)算某個(gè)詞序列的概率;P(O)是觀察序列的概率,是固定的,是固定的,所以只看分母部分即可。

端到端語(yǔ)音識(shí)別方法

由于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的建模能力,End-to-end的輸出標(biāo)簽也不再需要像傳統(tǒng)架構(gòu)一樣的進(jìn)行細(xì)分。例如對(duì)于中文,輸出不再需要進(jìn)行細(xì)分為狀態(tài)、音素或者聲韻母,直接將漢字作為輸出即可;對(duì)于英文,考慮到英文單詞的數(shù)量龐大,可以使用字母作為輸出標(biāo)簽。

從這一點(diǎn)出發(fā),我們可以認(rèn)為神經(jīng)網(wǎng)絡(luò)將聲學(xué)符號(hào)到字符串的映射關(guān)系也一并建模學(xué)習(xí)了出來(lái),這部分是在傳統(tǒng)的框架中時(shí)詞典所應(yīng)承擔(dān)的任務(wù)。針對(duì)這個(gè)模塊,傳統(tǒng)框架中有一個(gè)專門(mén)的建模單元叫做G2P(grapheme-to-phoneme),來(lái)處理集外詞(out of vocabulary,OOV)。在end-to-end的聲學(xué)模型中,可以沒(méi)有詞典,沒(méi)有OOV,也沒(méi)有G2P。這些全都被建模在一個(gè)神經(jīng)網(wǎng)絡(luò)中。

另外,在傳統(tǒng)的框架結(jié)構(gòu)中,語(yǔ)音需要分幀,加窗,提取特征,包括MFCC、PLP等等。在基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型中,通常使用更裸的Fbank特征。在End-to-en的識(shí)別中,使用更簡(jiǎn)單的特征比如FFT點(diǎn),也是常見(jiàn)的做法。或許在不久的將來(lái),語(yǔ)音的采樣點(diǎn)也可以作為輸入,這就是更加徹底的End-to-end聲學(xué)模型。

除此之外,End-to-end的聲學(xué)模型中已經(jīng)帶有了語(yǔ)言模型的信息,它是通過(guò)RNN在輸出序列上學(xué)習(xí)得到的。但這個(gè)語(yǔ)言模型仍然比較弱,如果外加一個(gè)更大數(shù)據(jù)量的語(yǔ)言模型,解碼的效果會(huì)更好。因此,End-to-end現(xiàn)在指聲學(xué)模型部分,等到不需要語(yǔ)言模型的時(shí)候,才是完全的end-to-end。

典型E2E ASR系統(tǒng)是基于transformer架構(gòu),如下


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容