1 介紹
本文是2020.5.19上傳ARXIV,可以說是比較新的。
口語(yǔ)語(yǔ)言處理,例如翻譯、檢索、摘要和理解,近年來(lái)取得了較大的成功,得益于“傾瀉”架構(gòu)。
該架構(gòu)主要包含:ASR模塊,將語(yǔ)音信號(hào)轉(zhuǎn)化為文本形式,后面再接各種下游任務(wù)模塊,這些模塊在之前產(chǎn)生的文本上進(jìn)行訓(xùn)練。
但是,設(shè)計(jì)一種端到端的方法一直以來(lái)都有很大的吸引力。原因在于:兩類模塊都是基于不同的標(biāo)準(zhǔn)來(lái)進(jìn)行局部?jī)?yōu)化,而端到端方法可以從全局進(jìn)行優(yōu)化;并且,端到端方法可以從語(yǔ)音信號(hào)中獲得一些潛在的信息,而這些信息往往沒有在ASR處理后的文本中體現(xiàn)出來(lái)。
一些口語(yǔ)語(yǔ)言處理,例如翻譯、檢索、理解(意圖識(shí)別和槽位填充)已經(jīng)用到了端到端的思想,它們的模型輸入通常是句子級(jí)。但口語(yǔ)問答(SQA,Spoken Question Answering)相比較以上任務(wù)更難。它的輸入比上述任務(wù)更長(zhǎng),通常是段落級(jí)。
Audio word2vec是第一個(gè)嘗試將聲學(xué)單詞轉(zhuǎn)化為只包含聲學(xué)信息的嵌入式向量。Speech2Vec試圖模仿CBOW方式或skip-gram方式來(lái)提取語(yǔ)義特征。另外一些方法嘗試將聲學(xué)詞與文本詞的向量進(jìn)行對(duì)齊。一些方法嘗試?yán)肂ERT從聲學(xué)信號(hào)中獲得嵌入向量。這些方法可以從聲學(xué)詞向量中獲得一些信息,但獲得的信息的層次遠(yuǎn)不足以應(yīng)付口語(yǔ)問答這類任務(wù)。
本文提出了SpeechBert用于處理端到端SQA任務(wù),從語(yǔ)音信號(hào)和文本上進(jìn)行預(yù)處理
假設(shè)用于訓(xùn)練的聲學(xué)數(shù)據(jù)集包含了正確的轉(zhuǎn)錄,因此可以通過強(qiáng)制對(duì)齊將聲學(xué)數(shù)據(jù)集切分為聲學(xué)詞(對(duì)應(yīng)潛在詞符號(hào)的語(yǔ)音信號(hào))。
2 SpeechBERT
2.1 文本BERT預(yù)訓(xùn)練
用標(biāo)準(zhǔn)的BERT預(yù)訓(xùn)練。思路參考BERT原文,分為MLM和NSP兩種任務(wù)。
2.2 初始聲學(xué)-語(yǔ)義聯(lián)合嵌入向量
給出訓(xùn)練的過程描述圖如下。

采用LSTM作為編碼器。
2.3 利用文本和語(yǔ)音數(shù)據(jù)進(jìn)行MLM預(yù)訓(xùn)練
思路參考BERT。只是輸入數(shù)據(jù)變?yōu)槲谋?語(yǔ)音數(shù)據(jù)。
2.4 問答任務(wù)上的微調(diào)
參考BERT
3 實(shí)驗(yàn)
數(shù)據(jù)集為spoken SQUAD,從原始SQUAD上得到的。相當(dāng)于是把原來(lái)的文本數(shù)據(jù)用語(yǔ)音讀了一遍,形成了聲學(xué)數(shù)據(jù)。但比原來(lái)數(shù)據(jù)集少了一部分,因?yàn)檫@部分缺失的數(shù)據(jù)沒有對(duì)應(yīng)聲學(xué)數(shù)據(jù)。
評(píng)估指標(biāo)同樣為EM和F1。
聲學(xué)數(shù)據(jù)采用MFCC 39維,BERT隱含層維度為768。
代碼基于pytorch。實(shí)際結(jié)果單獨(dú)效果不如BERT,但是將本文模型和BERT集成起來(lái),效果是目前最好的。F1值為71.75。