碰碰色97人妻,日韩精品成人一区二区,日本黄大片一区

姓名：崔哲琪

學(xué)號(hào)：16040120090

轉(zhuǎn)載自https://zhuanlan.zhihu.com/p/32053520?

【嵌牛導(dǎo)讀】

近日，谷歌發(fā)表博客介紹了他們對(duì)端到端語(yǔ)音識(shí)別模型的最新研究成果，新模型結(jié)合了多種優(yōu)化算法提升 LAS 模型的性能。相較于分離訓(xùn)練的傳統(tǒng)系統(tǒng)，新方法充分地發(fā)揮了聯(lián)合訓(xùn)練的優(yōu)勢(shì)，在語(yǔ)音搜索任務(wù)中取得了當(dāng)前業(yè)內(nèi)最低的詞錯(cuò)率結(jié)果。

【嵌牛鼻子】谷歌，語(yǔ)音識(shí)別系統(tǒng)，詞錯(cuò)率低

【嵌牛提問(wèn)】

谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)到底是什么樣的呢？

【嵌牛正文】

當(dāng)前最佳語(yǔ)音搜索模型

傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)（ASR）一直被谷歌的多種語(yǔ)音搜索應(yīng)用所使用，它由聲學(xué)模型（AM）、發(fā)音模型（PM）和語(yǔ)言模型（LM）組成，所有這些都會(huì)經(jīng)過(guò)獨(dú)立訓(xùn)練，同時(shí)通常是由手動(dòng)設(shè)計(jì)的，各個(gè)組件會(huì)在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練。AM 提取聲學(xué)特征并預(yù)測(cè)一系列子字單元（subword unit），通常是語(yǔ)境依賴(lài)或語(yǔ)境獨(dú)立的音素。然后，手動(dòng)設(shè)計(jì)的詞典（PM）將聲學(xué)模型生成的音素序列映射到單詞上。最后，LM 為單詞序列分配概率。獨(dú)立地訓(xùn)練各個(gè)組件會(huì)產(chǎn)生額外的復(fù)雜性，最終得到的性能低于聯(lián)合訓(xùn)練所有的組件。過(guò)去幾年來(lái)出現(xiàn)了越來(lái)越多開(kāi)發(fā)中的端到端系統(tǒng)嘗試以單個(gè)系統(tǒng)的方式聯(lián)合學(xué)習(xí)這些分離的組件。雖然相關(guān)文獻(xiàn)表明這些端到端模型具有潛在價(jià)值 [2,3]，但對(duì)于這樣的方法是否能提升當(dāng)前最佳的傳統(tǒng)系統(tǒng)的性能，尚無(wú)定論。

最近，谷歌發(fā)布了其最新研究，「使用序列到序列模型的當(dāng)前最佳語(yǔ)音識(shí)別系統(tǒng)」（State-of-the-art Speech Recognition With Sequence-to-Sequence Models[4]）。這篇論文描述了一種新型的端到端模型，它的性能優(yōu)于目前已商用的傳統(tǒng)方法 [1]。在谷歌的研究中，新的端到端系統(tǒng)的詞錯(cuò)率（WER）可以降低到 5.6%，相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升（6.7%WER）。此外，該端到端模型可以在任何的假設(shè)再評(píng)分（hypothesis rescoring）之前輸出初始詞假設(shè)。該模型的大小只有傳統(tǒng)模型的 1/18，因?yàn)樗话蛛x的 LM 和 PM。

谷歌的新系統(tǒng)建立在 Listen-Attend-Spell（LAS，在文獻(xiàn) [2] 中首次提出）端到端架構(gòu)之上。LAS 架構(gòu)由三個(gè)組件組成。listener 編碼器組件，和標(biāo)準(zhǔn)的 AM 相似，取輸入語(yǔ)音信號(hào) x 的時(shí)間-頻率表征，然后使用一系列的神經(jīng)網(wǎng)絡(luò)層將輸入映射到一個(gè)高級(jí)特征表示，henc。編碼器的輸出被傳遞到 attender，其使用 henc 學(xué)習(xí)輸入特征 x 和預(yù)測(cè)子字單元的 {y_n,...y_0} 之間的對(duì)齊方式，其中每個(gè)子字通常是一個(gè)字素或字片。最后，attention 模塊的輸出被傳遞給 speller（即解碼器），speller 和 LM 相似，可以生成一系列假設(shè)詞的概率分布。

圖片發(fā)自簡(jiǎn)書(shū)App

LAS 端到端模型的組件

LAS 模型的所有組件通過(guò)單個(gè)端到端神經(jīng)網(wǎng)絡(luò)聯(lián)合地訓(xùn)練，相較于傳統(tǒng)系統(tǒng)的分離模塊更加簡(jiǎn)單。

此外，因?yàn)?LAS 模型都是神經(jīng)網(wǎng)絡(luò)類(lèi)型，因此并不需要添加外部的手動(dòng)設(shè)計(jì)組件，例如有限狀態(tài)轉(zhuǎn)換器、詞典或文本歸一化模塊。最后，和傳統(tǒng)模型不同，訓(xùn)練端到端模型不需要決策樹(shù)的引導(dǎo)或一個(gè)分離系統(tǒng)生成的時(shí)間序列，給定了文本副本和相關(guān)的聲學(xué)特征之后，就可以進(jìn)行訓(xùn)練。

在文獻(xiàn) [4] 中，谷歌引入了一種新型的結(jié)構(gòu)化提升，包括優(yōu)化傳遞給解碼器的注意力向量，以及優(yōu)化更長(zhǎng)的子字單元（即字片，wordpieces）的訓(xùn)練過(guò)程。此外，谷歌在新模型中還引入了大量的優(yōu)化訓(xùn)練過(guò)程的方法，包括最小詞錯(cuò)率訓(xùn)練法（minimum word error rate training[5]）。正是這些結(jié)構(gòu)化和優(yōu)化提升使新模型取得了相對(duì)于傳統(tǒng)模型 16% 的性能提升。

這項(xiàng)研究的另一個(gè)潛在應(yīng)用是多方言和多語(yǔ)言系統(tǒng)，僅需優(yōu)化單個(gè)神經(jīng)網(wǎng)絡(luò)所帶來(lái)的簡(jiǎn)單性是很有吸引力的。所有的方言/語(yǔ)言可以被組合以訓(xùn)練一個(gè)網(wǎng)絡(luò)，而不需要為每個(gè)方言/語(yǔ)言分配分離的 AM、PM 和 LM。谷歌生成這些模型在 7 種英語(yǔ)方言 [6] 和 9 種印度方言 [7] 上都工作得很好，優(yōu)于分離地訓(xùn)練模型的性能。

雖然結(jié)果很吸引人，但是研究人員認(rèn)為目前的探索還尚未完成。第一，這些模型還不能實(shí)時(shí)地處理語(yǔ)音 [8,9,10]，而實(shí)時(shí)處理對(duì)于延遲敏感的應(yīng)用如語(yǔ)音搜索而言是必要的。第二，這些模型在實(shí)際生產(chǎn)數(shù)據(jù)上進(jìn)行評(píng)估的時(shí)候表現(xiàn)仍然不佳。第三，谷歌目前的端到端模型是在 22,000 個(gè)錄音-文本對(duì)上學(xué)習(xí)的，而傳統(tǒng)系統(tǒng)通?？梢栽陲@著大得多的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。最后，新模型還不能為生僻詞學(xué)習(xí)合適的拼寫(xiě)，例如專(zhuān)有名詞（一般還需要使用手動(dòng)設(shè)計(jì)的 PM）。谷歌接下來(lái)的目標(biāo)將是解決這些問(wèn)題。

論文：State-of-the-art Speech Recognition With Sequence-to-Sequence Models

圖片發(fā)自簡(jiǎn)書(shū)App

論文鏈接：https://arxiv.org/abs/1712.01769

摘要：基于注意力機(jī)制的編碼器-解碼器架構(gòu)，如 Listen、Attend 和 Spell（LAS）可以將傳統(tǒng)自動(dòng)語(yǔ)音識(shí)別（ASR）系統(tǒng)上的聲學(xué)、發(fā)音和語(yǔ)言模型組件集成到單個(gè)神經(jīng)網(wǎng)絡(luò)中。在我們以前的工作中，我們已經(jīng)證明了這樣的架構(gòu)在聽(tīng)寫(xiě)任務(wù)中與業(yè)內(nèi)頂尖水平的 ASR 系統(tǒng)具有相當(dāng)水平，但此前還不清楚這樣的架構(gòu)是否可以勝任語(yǔ)音搜索等更具挑戰(zhàn)性的任務(wù)。

在本研究中，我們探索了多種優(yōu)化和提升 LAS 模型的方法，其中的一些顯著提升了系統(tǒng)表現(xiàn)。在結(jié)構(gòu)上，我們證明了詞塊模型可以用來(lái)代替字素。我們引入了新型的多頭注意力架構(gòu)，它比常用的單頭注意力架構(gòu)有所提升。在優(yōu)化方面，我們探索了同步訓(xùn)練、定期采樣、平滑標(biāo)簽（label smoothing），也應(yīng)用了最小誤碼率優(yōu)化，這些方法都提升了準(zhǔn)確度。我們使用一個(gè)單向 LSTM 編碼器進(jìn)行串流識(shí)別并展示了結(jié)果。在 12,500 小時(shí)的語(yǔ)音搜索任務(wù)中，我們發(fā)現(xiàn)新模型將 LAS 系統(tǒng)的詞錯(cuò)率（WER）從 9.2% 降低到了 5.6%，相對(duì)于目前業(yè)內(nèi)最佳系統(tǒng)的 6.7% 提高了 16% 的水平。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)：詞錯(cuò)率降低至5.6%

谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)：詞錯(cuò)率降低至5.6%

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)：詞錯(cuò)率降低至5.6%

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av