論文解讀SpeechBert: An Audio-and-text Jointly Learned Language Model for End-to-End Spoken Question A...

1 介紹

本文是2020.5.19上傳ARXIV,可以說是比較新的。

口語(yǔ)語(yǔ)言處理,例如翻譯、檢索、摘要和理解,近年來(lái)取得了較大的成功,得益于“傾瀉”架構(gòu)。

該架構(gòu)主要包含:ASR模塊,將語(yǔ)音信號(hào)轉(zhuǎn)化為文本形式,后面再接各種下游任務(wù)模塊,這些模塊在之前產(chǎn)生的文本上進(jìn)行訓(xùn)練。

但是,設(shè)計(jì)一種端到端的方法一直以來(lái)都有很大的吸引力。原因在于:兩類模塊都是基于不同的標(biāo)準(zhǔn)來(lái)進(jìn)行局部?jī)?yōu)化,而端到端方法可以從全局進(jìn)行優(yōu)化;并且,端到端方法可以從語(yǔ)音信號(hào)中獲得一些潛在的信息,而這些信息往往沒有在ASR處理后的文本中體現(xiàn)出來(lái)。

一些口語(yǔ)語(yǔ)言處理,例如翻譯、檢索、理解(意圖識(shí)別和槽位填充)已經(jīng)用到了端到端的思想,它們的模型輸入通常是句子級(jí)。但口語(yǔ)問答(SQA,Spoken Question Answering)相比較以上任務(wù)更難。它的輸入比上述任務(wù)更長(zhǎng),通常是段落級(jí)。

Audio word2vec是第一個(gè)嘗試將聲學(xué)單詞轉(zhuǎn)化為只包含聲學(xué)信息的嵌入式向量。Speech2Vec試圖模仿CBOW方式或skip-gram方式來(lái)提取語(yǔ)義特征。另外一些方法嘗試將聲學(xué)詞與文本詞的向量進(jìn)行對(duì)齊。一些方法嘗試?yán)肂ERT從聲學(xué)信號(hào)中獲得嵌入向量。這些方法可以從聲學(xué)詞向量中獲得一些信息,但獲得的信息的層次遠(yuǎn)不足以應(yīng)付口語(yǔ)問答這類任務(wù)。

本文提出了SpeechBert用于處理端到端SQA任務(wù),從語(yǔ)音信號(hào)和文本上進(jìn)行預(yù)處理

假設(shè)用于訓(xùn)練的聲學(xué)數(shù)據(jù)集包含了正確的轉(zhuǎn)錄,因此可以通過強(qiáng)制對(duì)齊將聲學(xué)數(shù)據(jù)集切分為聲學(xué)詞(對(duì)應(yīng)潛在詞符號(hào)的語(yǔ)音信號(hào))。

2 SpeechBERT

2.1 文本BERT預(yù)訓(xùn)練

用標(biāo)準(zhǔn)的BERT預(yù)訓(xùn)練。思路參考BERT原文,分為MLM和NSP兩種任務(wù)。

2.2 初始聲學(xué)-語(yǔ)義聯(lián)合嵌入向量

給出訓(xùn)練的過程描述圖如下。

初始聲學(xué)-語(yǔ)義聯(lián)合嵌入向量訓(xùn)練過程

采用LSTM作為編碼器。

2.3 利用文本和語(yǔ)音數(shù)據(jù)進(jìn)行MLM預(yù)訓(xùn)練

思路參考BERT。只是輸入數(shù)據(jù)變?yōu)槲谋?語(yǔ)音數(shù)據(jù)。

2.4 問答任務(wù)上的微調(diào)

參考BERT

3 實(shí)驗(yàn)

數(shù)據(jù)集為spoken SQUAD,從原始SQUAD上得到的。相當(dāng)于是把原來(lái)的文本數(shù)據(jù)用語(yǔ)音讀了一遍,形成了聲學(xué)數(shù)據(jù)。但比原來(lái)數(shù)據(jù)集少了一部分,因?yàn)檫@部分缺失的數(shù)據(jù)沒有對(duì)應(yīng)聲學(xué)數(shù)據(jù)。

評(píng)估指標(biāo)同樣為EM和F1。

聲學(xué)數(shù)據(jù)采用MFCC 39維,BERT隱含層維度為768。

代碼基于pytorch。實(shí)際結(jié)果單獨(dú)效果不如BERT,但是將本文模型和BERT集成起來(lái),效果是目前最好的。F1值為71.75。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容