論文-Encoder-decoder with focus-mechanism for sequence labelling based spoken language understandin...

1.簡稱

論文《Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding》簡稱BLSTM-LSTM (focus),作者:Su Zhu and Kai Yu(Key Laboratory of Shanghai Education Commission for Intelligent Interaction and Cognitive Engineering),經(jīng)典的SLU論文(Semantic Frame)。

2. 摘要

本文研究了編碼器-解碼器的框架,并著重于基于序列標(biāo)簽的口語理解。

我們引入雙向長短期記憶-長短期記憶網(wǎng)絡(luò)(BLSTM-LSTM)作為編碼器-解碼器模型,以充分利用深度學(xué)習(xí)的力量。在序列標(biāo)記任務(wù)中,輸入和輸出序列是逐字對齊的,而注意機(jī)制無法提供準(zhǔn)確的對齊方式。為了解決這個(gè)限制,我們?yōu)榫幋a器-解碼器框架提出了一種新穎的聚焦機(jī)制。

在標(biāo)準(zhǔn)ATIS數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,具有聚焦機(jī)制的BLSTM-LSTM優(yōu)于標(biāo)準(zhǔn)的BLSTM和基于注意力的編碼器-解碼器,從而定義了最新技術(shù)。進(jìn)一步的實(shí)驗(yàn)還表明,所提出的模型對語音識(shí)別錯(cuò)誤具有更強(qiáng)的魯棒性。

3. 引言

在口語對話系統(tǒng)中,口語理解(SLU)是將用戶話語解析為相應(yīng)語義概念的關(guān)鍵組成部分。序列標(biāo)記中輸入話語的語義解析通常包括三個(gè)任務(wù):域檢測,意圖確定時(shí)隙填充。在本文中,我們專注于基于序列標(biāo)記的時(shí)隙填充任務(wù),該任務(wù)為句子中的每個(gè)單詞分配一個(gè)語義時(shí)隙標(biāo)簽。 SLU的主要挑戰(zhàn)是性能改進(jìn)及其對ASR錯(cuò)誤的魯棒性。

插槽填充是SLU獲得語義插槽及其關(guān)聯(lián)值的主要任務(wù)。通常,將時(shí)隙填充視為序列標(biāo)簽(SL)問題,以預(yù)測發(fā)聲中每個(gè)單詞的空位標(biāo)簽。作為一個(gè)典型的對齊任務(wù),圖1中顯示了一個(gè)時(shí)隙填充的示例。目標(biāo)是將單詞“Boston”標(biāo)記為出發(fā)城市,將“New York”標(biāo)記為到達(dá)城市,并將“today”標(biāo)記為日期。

解決此問題的標(biāo)準(zhǔn)方法包括生成模型,例如HMM / CFG復(fù)合模型,隱藏矢量狀態(tài)(HVS)模型和判別式或條件模型,例如條件隨機(jī)場(CRF)。 ,以及支持向量機(jī)(SVM)。最近,由于許多非常成功的連續(xù)空間,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)方法的推動(dòng),許多神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)已應(yīng)用于此任務(wù),例如簡單的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),卷積神經(jīng)網(wǎng)絡(luò)(CNN),長期短期記憶(LSTM)以及不同訓(xùn)練準(zhǔn)則的變化。最新的論文使用基于LSTM的序列模型的變體,包括編碼器-解碼器,外部存儲(chǔ)器。

受注意力機(jī)制在自然語言處理(NLP)領(lǐng)域成功的啟發(fā),我們首先應(yīng)用了基于注意力的編碼器-解碼器,將基于序列標(biāo)記的SLU視為語言翻譯問題。為了考慮以前和將來的信息,我們使用雙向LSTM(BLSTM)對編碼器進(jìn)行建模,并使用單向LSTM對解碼器進(jìn)行建模。注意機(jī)制采用位置A周圍的輸入與位置B處的輸出之間的匹配所提供的得分的加權(quán)平均值。序列標(biāo)記任務(wù)中注意模型的主要限制有兩個(gè):

  • 序列標(biāo)簽中的輸入和輸出對齊,而注意力模型對整個(gè)輸入單詞進(jìn)行評分。
  • 對齊可以通過注意力模型來學(xué)習(xí),但是很難在序列標(biāo)記任務(wù)中使用有限的帶注釋數(shù)據(jù)進(jìn)行處理(與機(jī)器翻譯不同,在機(jī)器翻譯中,更容易獲得配對數(shù)據(jù))。

為了解決注意力機(jī)制在序列標(biāo)記中的局限性,我們提出了聚焦機(jī)制,該機(jī)制強(qiáng)調(diào)了對齊的編碼器的隱藏狀態(tài)。

4. 核心

通過考慮過去的輸入,單向LSTM無法解決未來輸入的長距離依賴性。 BLSTM通過兩個(gè)單向LSTM解決了這一缺點(diǎn):處理原始輸入字序列的前向傳遞;向后傳遞處理反向輸入字序列。為了了解這些模型的優(yōu)勢,我們將介紹基于BLSTM-LSTM的編碼器-解碼器體系結(jié)構(gòu)。

4.1 BLSTM-LSTM + Attention

我們遵循基于RNN的編碼器/解碼器。為了同時(shí)考慮以前的歷史和未來的歷史,我們將BLSTM用作編碼器,將LSTM用作解碼器。

編碼器-解碼器的重要擴(kuò)展是添加一種注意力機(jī)制。我們采用了注意力模型。唯一的區(qū)別是我們預(yù)先使用BLSTM作為編碼器。編碼器通過BLSTM讀入一個(gè)輸入序列x=(x_1,x_2,...,x_{T_x})并且生成T_x隱藏狀態(tài)。

雙向隱藏狀態(tài)輸出

給定所有輸入詞和所有先前預(yù)測的語義標(biāo)簽{y_1,...,y_{t-1}},對解碼器進(jìn)行訓(xùn)練以預(yù)測下一個(gè)語義標(biāo)簽y_t

帶有注意力機(jī)制的解碼器

其中g表示輸出層(通常帶有softmax),s_t是解碼器LSTM在時(shí)間t的隱藏狀態(tài),其中f_d設(shè)置為LSTM單位函數(shù)。 c_t表示用于根據(jù)不同的編碼器隱藏狀態(tài)生成標(biāo)簽y_t的上下文信息,通常由注意力機(jī)制實(shí)現(xiàn):

注意力計(jì)算方法

為了將該模型應(yīng)用于序列標(biāo)記任務(wù),我們強(qiáng)制解碼器生成的輸出序列獲得與輸入字序列相同的長度。

4.2 Focus mechanism(聚焦機(jī)制)

如引言中所述,注意力機(jī)制在基于序列標(biāo)記的SLU任務(wù)中面臨兩個(gè)限制。為了解決這些問題,我們提出了僅考慮對齊的編碼器隱藏狀態(tài)的聚焦機(jī)制,即:\begin{cases} α_{ti}= 0, & \mbox{if }t \neq\mbox{i} \\ α_{ti}= 1, & \mbox{if }t=\mbox{i} \\ \end{cases}

則:c_t=h_t

因此,沒有必要通過利用注意力模型來學(xué)習(xí)對齊方式。具有注意和聚焦機(jī)制的編碼器-解碼器如圖2所示。

5. 實(shí)驗(yàn)

5.1 Experimental Setup

我們使用ATIS語料庫,該語料庫已被SLU社區(qū)廣泛用作基準(zhǔn)。在ATIS中,句子及其語義位置標(biāo)簽以流行的輸入/輸出/開始(IOB)表示形式。圖1中提供了一個(gè)示例句子。訓(xùn)練數(shù)據(jù)包含4978個(gè)句子和56590個(gè)單詞。測試數(shù)據(jù)包括893個(gè)句子和9198個(gè)單詞。我們隨機(jī)選擇了訓(xùn)練數(shù)據(jù)的80%用于模型訓(xùn)練,其余20%用于驗(yàn)證。

除了ATIS,我們還將模型應(yīng)用于汽車導(dǎo)航領(lǐng)域的自定義中文數(shù)據(jù)集,該數(shù)據(jù)集包含用于訓(xùn)練的8000條話語,用于驗(yàn)證的2000條話語和用于測試的1944條話語。已使用IOB模式為每個(gè)單詞手動(dòng)分配了一個(gè)插槽。不僅要評估句子,還要評估自動(dòng)語音識(shí)別(ASR)所產(chǎn)生的每個(gè)發(fā)音的最高假設(shè)。這些ASR頂部輸出的單詞錯(cuò)誤率(WER)為4.75%,句子錯(cuò)誤率(SER)為23.42%。

我們報(bào)告測試集上的F1分?jǐn)?shù),并使用在驗(yàn)證數(shù)據(jù)上獲得最佳F分?jǐn)?shù)的參數(shù)。我們交易
與由只用一個(gè)在訓(xùn)練組中為單次出現(xiàn)的標(biāo)記的任何詞語的測試集<unk >。

我們實(shí)現(xiàn)的LSTM神經(jīng)網(wǎng)絡(luò)。如前所述,編碼器-解碼器模型使用BLSTM進(jìn)行編碼,使用LSTM進(jìn)行解碼。為了進(jìn)行訓(xùn)練,網(wǎng)絡(luò)參數(shù)根據(jù)均勻分布(-0.2,0.2)隨機(jī)初始化。我們將隨機(jī)梯度下降(SGD)用于更新參數(shù)。為了增強(qiáng)我們提出的模型的泛化能力,我們在訓(xùn)練階段以0.5的概率應(yīng)用了dropout。

對于編碼器/解碼器,根據(jù)經(jīng)驗(yàn),我們使用從左到右的beam search進(jìn)行波束大小為2的解碼。

我們嘗試不同的學(xué)習(xí)率,范圍從0.004到0.04,類似于網(wǎng)格搜索。我們將學(xué)習(xí)率保持了100個(gè)時(shí)期,并在驗(yàn)證集上保存了能夠提供最佳性能的參數(shù),該參數(shù)是在每個(gè)訓(xùn)練時(shí)期之后進(jìn)行測量的。

5.2 Results on the ATIS Dataset

表1顯示了ATIS數(shù)據(jù)集上的結(jié)果。對于所有架構(gòu),我們將詞嵌入的維數(shù)設(shè)置為100,將隱藏單元的數(shù)量設(shè)置為100。我們僅將當(dāng)前詞用作輸入,而沒有任何上下文詞。同時(shí)考慮過去和未來歷史的BLSTM的表現(xiàn)優(yōu)于LSTM(+ 2.03%)?;谧⒁饬Φ腂LSTM-LSTM模型的F1-得分低于BLSTM(-2.7%)。我們認(rèn)為原因是序列標(biāo)記問題是一項(xiàng)任務(wù),其輸入和輸出序列對齊。

只有有限的數(shù)據(jù),很難通過注意力機(jī)制準(zhǔn)確地學(xué)習(xí)對齊。我們嘗試通過將句子中每個(gè)特定位置的值隨機(jī)替換為原始比例的10倍來擴(kuò)展ATIS的訓(xùn)練數(shù)據(jù)。例如,“Flights from Boston”可以擴(kuò)展為“Flights from New York”,“Flights from Los Angeles”等。受關(guān)注的BLSTM-LSTM的F1-得分達(dá)到95.19%,而其他方法則沒有從中受益擴(kuò)展訓(xùn)練集。

與在ATIS數(shù)據(jù)集上發(fā)布的結(jié)果相比,我們的方法優(yōu)于表2中所示的先前發(fā)布的F1得分。表2總結(jié)了最近發(fā)布的關(guān)于ATIS插槽填充任務(wù)的結(jié)果,并將其與我們提出的方法的結(jié)果進(jìn)行了比較。我們提出的模型達(dá)到了最先進(jìn)的性能1,但在統(tǒng)計(jì)上并不顯著。


5.3 Results on Chinese Navigation Dataset

為了研究具有注意力或聚焦機(jī)制的BLSTM-LSTM體系結(jié)構(gòu)的魯棒性,我們對實(shí)驗(yàn)設(shè)置中描述的中文導(dǎo)航數(shù)據(jù)集進(jìn)行了額外的實(shí)驗(yàn)。對于神經(jīng)網(wǎng)絡(luò)架構(gòu),我們還將詞嵌入的維數(shù)設(shè)置為100,將隱藏單元的數(shù)量設(shè)置為100。此外,與使用上下文窗口大小為5的CRF相比,僅將當(dāng)前詞用作LSTM輸入。 我們在自然文本句子(沒有任何語音識(shí)別錯(cuò)誤)上訓(xùn)練模型,并不僅對手動(dòng)轉(zhuǎn)錄(正確的文本句子)進(jìn)行測試,而且還對語音識(shí)別系統(tǒng)的主要假設(shè)(包括識(shí)別錯(cuò)誤)進(jìn)行了測試。


表3顯示結(jié)果。由于輸出語句級(jí)別的優(yōu)化,CRF基線似乎與BLSTM競爭。相比之下,LSTM不符合我們的期望。因?yàn)榇藬?shù)據(jù)集中的主要挑戰(zhàn)是檢測較長的短語,例如位置名稱(長度從1到24個(gè)單詞不等)。它遭受著對過去和未來輸入的長期依賴。隨后,BLSTM解決了這個(gè)問題。

具有聚焦機(jī)制的BLSTM-LSTM在自然句子和ASR的最高假設(shè)上均明顯優(yōu)于BLSTM(顯著水平5%)。帶有聚焦機(jī)制的BLSTM-LSTM編碼器/解碼器似乎對ASR錯(cuò)誤更健壯。一個(gè)可能的原因是,標(biāo)簽依賴性解碼器中的,有助于忽略編碼器轉(zhuǎn)換后的錯(cuò)誤。 CRF還可以通過解析ASR輸出來對標(biāo)簽依賴性進(jìn)行建模,并優(yōu)于BLSTM。

將來,我們想研究具有聚焦機(jī)制的BLSTM-LSTM來處理其他序列標(biāo)記任務(wù)(例如,詞性標(biāo)記,命名實(shí)體識(shí)別)。

6. 重點(diǎn)論文

  • Ye-Yi Wang, Li Deng, and Alex Acero, “Spoken language understanding,” Signal Processing Magazine, IEEE, vol. 22, no. 5, pp. 16–31, 2005.
  • Yulan He and Steve Young, “A data-driven spoken language understanding system,” in IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2003, pp. 583–588.
  • John Lafferty, Andrew McCallum, and Fernando CN Pereira, “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” in ICML, 2001.
  • K Taku and M Yuji, “Chunking with support vector machine,” in Proceedings of North American chapter of the association for computational linguistics, 2001, pp. 192–199.
  • Gre ?goireMesnil,XiaodongHe,LiDeng,andYoshua Bengio, “Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding.,” in INTERSPEECH, 2013, pp. 3771– 3775.
  • Puyang Xu and Ruhi Sarikaya, “Convolutional neural network based triangular crf for joint intent detection and slot filling,” in 2013 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2013, pp. 78–83.
  • Kaisheng Yao, Baolin Peng, Yu Zhang, Dong Yu, Geof- frey Zweig, and Yangyang Shi, “Spoken language understanding using long short-term memory neural net- works,” in 2014 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2014, pp. 189–194.
  • Ngoc Thang Vu, Pankaj Gupta, Heike Adel, and Hinrich Schu ?tze, “Bi-directional recurrent neural network with ranking loss for spoken language understanding,” in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

7. 代碼編寫

# 后續(xù)追加代碼分析

參考文獻(xiàn)

  1. Zhu, S., & 0004, K. Y. (2017). Encoder-decoder with focus-mechanism for sequence labelling based spoken language understanding. Icassp, 5675–5679.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容