1 介紹

本文是2020.5.19上傳ARXIV，可以說是比較新的。

口語(yǔ)語(yǔ)言處理，例如翻譯、檢索、摘要和理解，近年來(lái)取得了較大的成功，得益于“傾瀉”架構(gòu)。

該架構(gòu)主要包含：ASR模塊，將語(yǔ)音信號(hào)轉(zhuǎn)化為文本形式，后面再接各種下游任務(wù)模塊，這些模塊在之前產(chǎn)生的文本上進(jìn)行訓(xùn)練。

但是，設(shè)計(jì)一種端到端的方法一直以來(lái)都有很大的吸引力。原因在于：兩類模塊都是基于不同的標(biāo)準(zhǔn)來(lái)進(jìn)行局部?jī)?yōu)化，而端到端方法可以從全局進(jìn)行優(yōu)化；并且，端到端方法可以從語(yǔ)音信號(hào)中獲得一些潛在的信息，而這些信息往往沒有在ASR處理后的文本中體現(xiàn)出來(lái)。

一些口語(yǔ)語(yǔ)言處理，例如翻譯、檢索、理解（意圖識(shí)別和槽位填充）已經(jīng)用到了端到端的思想，它們的模型輸入通常是句子級(jí)。但口語(yǔ)問答（SQA，Spoken Question Answering）相比較以上任務(wù)更難。它的輸入比上述任務(wù)更長(zhǎng)，通常是段落級(jí)。

Audio word2vec是第一個(gè)嘗試將聲學(xué)單詞轉(zhuǎn)化為只包含聲學(xué)信息的嵌入式向量。Speech2Vec試圖模仿CBOW方式或skip-gram方式來(lái)提取語(yǔ)義特征。另外一些方法嘗試將聲學(xué)詞與文本詞的向量進(jìn)行對(duì)齊。一些方法嘗試?yán)肂ERT從聲學(xué)信號(hào)中獲得嵌入向量。這些方法可以從聲學(xué)詞向量中獲得一些信息，但獲得的信息的層次遠(yuǎn)不足以應(yīng)付口語(yǔ)問答這類任務(wù)。

本文提出了SpeechBert用于處理端到端SQA任務(wù)，從語(yǔ)音信號(hào)和文本上進(jìn)行預(yù)處理

假設(shè)用于訓(xùn)練的聲學(xué)數(shù)據(jù)集包含了正確的轉(zhuǎn)錄，因此可以通過強(qiáng)制對(duì)齊將聲學(xué)數(shù)據(jù)集切分為聲學(xué)詞（對(duì)應(yīng)潛在詞符號(hào)的語(yǔ)音信號(hào)）。

2 SpeechBERT

2.1 文本BERT預(yù)訓(xùn)練

用標(biāo)準(zhǔn)的BERT預(yù)訓(xùn)練。思路參考BERT原文，分為MLM和NSP兩種任務(wù)。

2.2 初始聲學(xué)-語(yǔ)義聯(lián)合嵌入向量

給出訓(xùn)練的過程描述圖如下。

初始聲學(xué)-語(yǔ)義聯(lián)合嵌入向量訓(xùn)練過程

采用LSTM作為編碼器。

2.3 利用文本和語(yǔ)音數(shù)據(jù)進(jìn)行MLM預(yù)訓(xùn)練

思路參考BERT。只是輸入數(shù)據(jù)變?yōu)槲谋?語(yǔ)音數(shù)據(jù)。

2.4 問答任務(wù)上的微調(diào)

參考BERT

3 實(shí)驗(yàn)

數(shù)據(jù)集為spoken SQUAD，從原始SQUAD上得到的。相當(dāng)于是把原來(lái)的文本數(shù)據(jù)用語(yǔ)音讀了一遍，形成了聲學(xué)數(shù)據(jù)。但比原來(lái)數(shù)據(jù)集少了一部分，因?yàn)檫@部分缺失的數(shù)據(jù)沒有對(duì)應(yīng)聲學(xué)數(shù)據(jù)。

評(píng)估指標(biāo)同樣為EM和F1。

聲學(xué)數(shù)據(jù)采用MFCC 39維，BERT隱含層維度為768。

代碼基于pytorch。實(shí)際結(jié)果單獨(dú)效果不如BERT，但是將本文模型和BERT集成起來(lái)，效果是目前最好的。F1值為71.75。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文解讀SpeechBert: An Audio-and-text Jointly Learned Language Model for End-to-End Spoken Question A...

論文解讀SpeechBert: An Audio-and-text Jointly Learned Language Model for End-to-End Spoken Question A...

1 介紹

2 SpeechBERT

3 實(shí)驗(yàn)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文解讀SpeechBert: An Audio-and-text Jointly Learned Language Model for End-to-End Spoken Question A...

1 介紹

2 SpeechBERT

3 實(shí)驗(yàn)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av