姓名:崔哲琪
學(xué)號(hào):16040120090
轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/32053520?
【嵌牛導(dǎo)讀】
近日,谷歌發(fā)表博客介紹了他們對(duì)端到端語(yǔ)音識(shí)別模型的最新研究成果,新模型結(jié)合了多種優(yōu)化算法提升 LAS 模型的性能。相較于分離訓(xùn)練的傳統(tǒng)系統(tǒng),新方法充分地發(fā)揮了聯(lián)合訓(xùn)練的優(yōu)勢(shì),在語(yǔ)音搜索任務(wù)中取得了當(dāng)前業(yè)內(nèi)最低的詞錯(cuò)率結(jié)果。
【嵌牛鼻子】谷歌,語(yǔ)音識(shí)別系統(tǒng),詞錯(cuò)率低
【嵌牛提問(wèn)】
谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)到底是什么樣的呢?
【嵌牛正文】
當(dāng)前最佳語(yǔ)音搜索模型
傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)一直被谷歌的多種語(yǔ)音搜索應(yīng)用所使用,它由聲學(xué)模型(AM)、發(fā)音模型(PM)和語(yǔ)言模型(LM)組成,所有這些都會(huì)經(jīng)過(guò)獨(dú)立訓(xùn)練,同時(shí)通常是由手動(dòng)設(shè)計(jì)的,各個(gè)組件會(huì)在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練。AM 提取聲學(xué)特征并預(yù)測(cè)一系列子字單元(subword unit),通常是語(yǔ)境依賴(lài)或語(yǔ)境獨(dú)立的音素。然后,手動(dòng)設(shè)計(jì)的詞典(PM)將聲學(xué)模型生成的音素序列映射到單詞上。最后,LM 為單詞序列分配概率。獨(dú)立地訓(xùn)練各個(gè)組件會(huì)產(chǎn)生額外的復(fù)雜性,最終得到的性能低于聯(lián)合訓(xùn)練所有的組件。過(guò)去幾年來(lái)出現(xiàn)了越來(lái)越多開(kāi)發(fā)中的端到端系統(tǒng)嘗試以單個(gè)系統(tǒng)的方式聯(lián)合學(xué)習(xí)這些分離的組件。雖然相關(guān)文獻(xiàn)表明這些端到端模型具有潛在價(jià)值 [2,3],但對(duì)于這樣的方法是否能提升當(dāng)前最佳的傳統(tǒng)系統(tǒng)的性能,尚無(wú)定論。
最近,谷歌發(fā)布了其最新研究,「使用序列到序列模型的當(dāng)前最佳語(yǔ)音識(shí)別系統(tǒng)」(State-of-the-art Speech Recognition With Sequence-to-Sequence Models[4])。這篇論文描述了一種新型的端到端模型,它的性能優(yōu)于目前已商用的傳統(tǒng)方法 [1]。在谷歌的研究中,新的端到端系統(tǒng)的詞錯(cuò)率(WER)可以降低到 5.6%,相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升(6.7%WER)。此外,該端到端模型可以在任何的假設(shè)再評(píng)分(hypothesis rescoring)之前輸出初始詞假設(shè)。該模型的大小只有傳統(tǒng)模型的 1/18,因?yàn)樗话蛛x的 LM 和 PM。
谷歌的新系統(tǒng)建立在 Listen-Attend-Spell(LAS,在文獻(xiàn) [2] 中首次提出)端到端架構(gòu)之上。LAS 架構(gòu)由三個(gè)組件組成。listener 編碼器組件,和標(biāo)準(zhǔn)的 AM 相似,取輸入語(yǔ)音信號(hào) x 的時(shí)間-頻率表征,然后使用一系列的神經(jīng)網(wǎng)絡(luò)層將輸入映射到一個(gè)高級(jí)特征表示,henc。編碼器的輸出被傳遞到 attender,其使用 henc 學(xué)習(xí)輸入特征 x 和預(yù)測(cè)子字單元的 {y_n,...y_0} 之間的對(duì)齊方式,其中每個(gè)子字通常是一個(gè)字素或字片。最后,attention 模塊的輸出被傳遞給 speller(即解碼器),speller 和 LM 相似,可以生成一系列假設(shè)詞的概率分布。

LAS 端到端模型的組件
LAS 模型的所有組件通過(guò)單個(gè)端到端神經(jīng)網(wǎng)絡(luò)聯(lián)合地訓(xùn)練,相較于傳統(tǒng)系統(tǒng)的分離模塊更加簡(jiǎn)單。
此外,因?yàn)?LAS 模型都是神經(jīng)網(wǎng)絡(luò)類(lèi)型,因此并不需要添加外部的手動(dòng)設(shè)計(jì)組件,例如有限狀態(tài)轉(zhuǎn)換器、詞典或文本歸一化模塊。最后,和傳統(tǒng)模型不同,訓(xùn)練端到端模型不需要決策樹(shù)的引導(dǎo)或一個(gè)分離系統(tǒng)生成的時(shí)間序列,給定了文本副本和相關(guān)的聲學(xué)特征之后,就可以進(jìn)行訓(xùn)練。
在文獻(xiàn) [4] 中,谷歌引入了一種新型的結(jié)構(gòu)化提升,包括優(yōu)化傳遞給解碼器的注意力向量,以及優(yōu)化更長(zhǎng)的子字單元(即字片,wordpieces)的訓(xùn)練過(guò)程。此外,谷歌在新模型中還引入了大量的優(yōu)化訓(xùn)練過(guò)程的方法,包括最小詞錯(cuò)率訓(xùn)練法(minimum word error rate training[5])。正是這些結(jié)構(gòu)化和優(yōu)化提升使新模型取得了相對(duì)于傳統(tǒng)模型 16% 的性能提升。
這項(xiàng)研究的另一個(gè)潛在應(yīng)用是多方言和多語(yǔ)言系統(tǒng),僅需優(yōu)化單個(gè)神經(jīng)網(wǎng)絡(luò)所帶來(lái)的簡(jiǎn)單性是很有吸引力的。所有的方言/語(yǔ)言可以被組合以訓(xùn)練一個(gè)網(wǎng)絡(luò),而不需要為每個(gè)方言/語(yǔ)言分配分離的 AM、PM 和 LM。谷歌生成這些模型在 7 種英語(yǔ)方言 [6] 和 9 種印度方言 [7] 上都工作得很好,優(yōu)于分離地訓(xùn)練模型的性能。
雖然結(jié)果很吸引人,但是研究人員認(rèn)為目前的探索還尚未完成。第一,這些模型還不能實(shí)時(shí)地處理語(yǔ)音 [8,9,10],而實(shí)時(shí)處理對(duì)于延遲敏感的應(yīng)用如語(yǔ)音搜索而言是必要的。第二,這些模型在實(shí)際生產(chǎn)數(shù)據(jù)上進(jìn)行評(píng)估的時(shí)候表現(xiàn)仍然不佳。第三,谷歌目前的端到端模型是在 22,000 個(gè)錄音-文本對(duì)上學(xué)習(xí)的,而傳統(tǒng)系統(tǒng)通??梢栽陲@著大得多的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。最后,新模型還不能為生僻詞學(xué)習(xí)合適的拼寫(xiě),例如專(zhuān)有名詞(一般還需要使用手動(dòng)設(shè)計(jì)的 PM)。谷歌接下來(lái)的目標(biāo)將是解決這些問(wèn)題。
論文:State-of-the-art Speech Recognition With Sequence-to-Sequence Models

論文鏈接:https://arxiv.org/abs/1712.01769
摘要:基于注意力機(jī)制的編碼器-解碼器架構(gòu),如 Listen、Attend 和 Spell(LAS)可以將傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)上的聲學(xué)、發(fā)音和語(yǔ)言模型組件集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中。在我們以前的工作中,我們已經(jīng)證明了這樣的架構(gòu)在聽(tīng)寫(xiě)任務(wù)中與業(yè)內(nèi)頂尖水平的 ASR 系統(tǒng)具有相當(dāng)水平,但此前還不清楚這樣的架構(gòu)是否可以勝任語(yǔ)音搜索等更具挑戰(zhàn)性的任務(wù)。
在本研究中,我們探索了多種優(yōu)化和提升 LAS 模型的方法,其中的一些顯著提升了系統(tǒng)表現(xiàn)。在結(jié)構(gòu)上,我們證明了詞塊模型可以用來(lái)代替字素。我們引入了新型的多頭注意力架構(gòu),它比常用的單頭注意力架構(gòu)有所提升。在優(yōu)化方面,我們探索了同步訓(xùn)練、定期采樣、平滑標(biāo)簽(label smoothing),也應(yīng)用了最小誤碼率優(yōu)化,這些方法都提升了準(zhǔn)確度。我們使用一個(gè)單向 LSTM 編碼器進(jìn)行串流識(shí)別并展示了結(jié)果。在 12,500 小時(shí)的語(yǔ)音搜索任務(wù)中,我們發(fā)現(xiàn)新模型將 LAS 系統(tǒng)的詞錯(cuò)率(WER)從 9.2% 降低到了 5.6%,相對(duì)于目前業(yè)內(nèi)最佳系統(tǒng)的 6.7% 提高了 16% 的水平。