傳統(tǒng)語(yǔ)音識(shí)別方法
傳統(tǒng)語(yǔ)音識(shí)別分為聲學(xué)模型、語(yǔ)言模型、解碼器等幾部分,其中P(O|W) 叫做聲學(xué)模型,描述的是給定詞W時(shí)聲學(xué)觀察為O的概率;P(W)叫做語(yǔ)言模型,負(fù)責(zé)計(jì)算某個(gè)詞序列的概率;P(O)是觀察序列的概率,是固定的,是固定的,所以只看分母部分即可。


端到端語(yǔ)音識(shí)別方法
由于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的建模能力,End-to-end的輸出標(biāo)簽也不再需要像傳統(tǒng)架構(gòu)一樣的進(jìn)行細(xì)分。例如對(duì)于中文,輸出不再需要進(jìn)行細(xì)分為狀態(tài)、音素或者聲韻母,直接將漢字作為輸出即可;對(duì)于英文,考慮到英文單詞的數(shù)量龐大,可以使用字母作為輸出標(biāo)簽。
從這一點(diǎn)出發(fā),我們可以認(rèn)為神經(jīng)網(wǎng)絡(luò)將聲學(xué)符號(hào)到字符串的映射關(guān)系也一并建模學(xué)習(xí)了出來(lái),這部分是在傳統(tǒng)的框架中時(shí)詞典所應(yīng)承擔(dān)的任務(wù)。針對(duì)這個(gè)模塊,傳統(tǒng)框架中有一個(gè)專門(mén)的建模單元叫做G2P(grapheme-to-phoneme),來(lái)處理集外詞(out of vocabulary,OOV)。在end-to-end的聲學(xué)模型中,可以沒(méi)有詞典,沒(méi)有OOV,也沒(méi)有G2P。這些全都被建模在一個(gè)神經(jīng)網(wǎng)絡(luò)中。
另外,在傳統(tǒng)的框架結(jié)構(gòu)中,語(yǔ)音需要分幀,加窗,提取特征,包括MFCC、PLP等等。在基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型中,通常使用更裸的Fbank特征。在End-to-en的識(shí)別中,使用更簡(jiǎn)單的特征比如FFT點(diǎn),也是常見(jiàn)的做法。或許在不久的將來(lái),語(yǔ)音的采樣點(diǎn)也可以作為輸入,這就是更加徹底的End-to-end聲學(xué)模型。
除此之外,End-to-end的聲學(xué)模型中已經(jīng)帶有了語(yǔ)言模型的信息,它是通過(guò)RNN在輸出序列上學(xué)習(xí)得到的。但這個(gè)語(yǔ)言模型仍然比較弱,如果外加一個(gè)更大數(shù)據(jù)量的語(yǔ)言模型,解碼的效果會(huì)更好。因此,End-to-end現(xiàn)在指聲學(xué)模型部分,等到不需要語(yǔ)言模型的時(shí)候,才是完全的end-to-end。
典型E2E ASR系統(tǒng)是基于transformer架構(gòu),如下
