論文-A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications

1. 簡稱

論文《A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications》,作者Mengyang Chen(ByteDance Corporation, China),經(jīng)典的NLU論文(Semantic Frame)。

2. 摘要

3. 引言

口語理解(SLU)是面向目標的對話系統(tǒng)中的重要組成部分。它通常涉及識別說話者的意圖并從用戶話語中提取語義槽位,這被稱為意圖檢測(ID)和空位填充(SF)。表I展示了一個來自航空旅行信息系統(tǒng)(ATIS)語料庫的示例。近年來,人們對SLU問題進行了深入研究。但是,這些方法只是在語法上限制了SF結(jié)果,獨立地解決了ID和SF,或者沒有充分利用兩個任務的相互影響。本文提出了一個具有條件隨機場(CRF)層和先驗掩碼的多頭自注意力模型。實驗表明,與最新模型相比,我們模型的有效性。同時,最近幾年中國的在線教育取得了長足的進步。但是,很少有用于學生學習外語的智能教育對話應用程序。因此,我們設計了一個智能對話機器人,該機器人配備了不同的場景設置,可以幫助學生學習交流技能。

我們提出了一個聯(lián)合模型,該模型使用多頭局部自注意來提取共享特征,使用掩碼門控機制來探索輸出的相關(guān)性,并使用CRF來約束SF輸出,以完美地解決該問題。

4. 核心

我們在本節(jié)中介紹我們的模型,概述為圖一。第一層將輸入序列X={x_k}映射成向量,通過把詞級別嵌入{e_k^w}和從BI-LSTM中獲取字級別的嵌入e_k^c連接起來。其中k是序列中單詞索引。由于上下文信息(尤其是相鄰單詞)在序列標記中很有用,因此我們采用多頭局部自注意來提取上下文感知特征{c_k^e}。局部上下文特征是H=(h_{k-1},...,h_k,...h_{k+w})和注意力輸出計算公式為:

a=softmax(W_{km1}tanh(W_{km2}H))\tag{1}
c_k^e=aH\tag{2}

其中W_{km1}W_{km2}是用于第k個詞和第m個頭的局部自注意力的第一層和第二層權(quán)重。Bi-LSTM層產(chǎn)生{h_k},將其用于使用多層完全連接分類器對意圖y^I進行分類。

y^I=softmax(W^Ih_n+b^I)\tag{3}

在訓練期間使用了交叉熵損失,并且意圖標簽對應于在預測期間給出最高概率的索引。

隱藏狀態(tài)也被發(fā)送到類似的多頭本地自我關(guān)注結(jié)構(gòu)以生成{c_k^h}。由于在不同意圖下的槽分布是不同的,我們采用一個先驗掩碼,它是一個由意圖P(y_k^s|y^I)給出槽的條件概率分布。我們將掩碼和意圖輸出相乘,將結(jié)果與{c_k^h}連接起來,最后放入一個CRF層去獲取受約束的槽結(jié)果Y^s={y_k^s},我們把P當做注意力的輸出矩陣的得分。P_{k,y_k^s}表示第k個詞的y_k^s標簽的得分,我們定義得分函數(shù)為:

s(X,Y^s)=\sum_{k=0}^nA_{y_k^s,y_{k+1}^s}+\sum_{k=1}^nP_{k,y_k^s}\tag{4}

所有可能的標簽序列上的softmax產(chǎn)生序列Y^s的概率。我們在訓練過程中最大化正確標簽序列的對數(shù)概率。解碼時,對得分最高的輸出序列進行預測。

5. 實驗

為了評估所提出模型的效率,我們對ATIS和Snips數(shù)據(jù)集進行了實驗,這些數(shù)據(jù)集被廣泛用作SLU研究的基準。 ATIS包含預訂機票的人的錄音。片段是從個人語音助手收集的。插槽填充任務的性能由F1分數(shù)衡量,而意圖檢測任務則以預測精度進行評估。表II中列出了針對其他方法的模型結(jié)果。與最新方法相比,我們的方法在兩個數(shù)據(jù)集上的ID分別提高了0.14%和0.49%,在SF中分別提高了0.02%和0.04%。

6. 實際應用

在過去的很長一段時間里,非英語母語的學生在語法或閱讀理解上花費了太多的時間,以至于他們要么專注于言語影子,要么專注于簡單的對話,而沒有復雜的對話狀態(tài)跟蹤,從而不能幫助學生流利地表達和處理復雜場景下的對話。

為了幫助K12學生更好地處理旅行、購物和點餐等現(xiàn)實場景,我們設計了一個對話應用程序。該框架實際上是一個標準的面向目標的對話系統(tǒng),如圖4所示。首先,Agent采用前面討論的SLU方法來分析學生的意圖和槽值。其次,利用基于規(guī)則的對話跟蹤技術(shù)記錄會話狀態(tài)變化,并做出相應的動作。最后,使用預定義的模板生成響應。

由于本文討論的主題是SLU,為了方便起見,我們?nèi)サ袅薃SR和TTS模塊,使用了一個簡化的版本(實際使用的是百度語音API)。

圖2顯示了一個購物示例,圖3是DST的偽代碼和決策邏輯。

當學生不知道如何回應時,可以通過在APP中選擇“幫助”來獲取提示。

7. EVIDENCE OF POTENTIAL IMPACTS

教育是全世界人民都非常重視的領(lǐng)域。

相關(guān)研究表明,中國只有四分之一的學生可以進入本科學習,這遠遠少于發(fā)達國家。幸運的是,在過去的幾年里,教育行業(yè)取得了很大的進步。2013年以來,中國K12市場規(guī)模增速保持在30%以上。然而,由于巨大的租金和教師工資成本,傳統(tǒng)公司遇到了利潤問題。他們將重點轉(zhuǎn)向在線教育方案,其中CR4(四家公司集中率)低于5%,目前還沒有大型公司存在。此外,中國還制定了政府計劃,鼓勵新興市場力量進入這一領(lǐng)域。對于父母來說,他們高度重視英語學習,并愿意為加強孩子的口語和聽力技能買單。然而,流行的應用,如VIPKID,主要集中在語音陰影上,不能完全滿足他們的需求。事實上,學習外語的核心目標是在日常對話中流利地說和聽。

只有幾家公司專注于情景對話,他們只使用簡單的邏輯來跟蹤對話狀態(tài)。換句話說,如果沒有預定義的用戶話語,對話將無法繼續(xù)。學生們可能會對這樣的模式感到厭倦。基于我們的方法設計的會話機器人提供了更大的交談自由度,并跟蹤不同意圖和槽值之間的對話狀態(tài)轉(zhuǎn)換。

我們從北京當?shù)刂行W抽取了50名K12學生,進行了一項用戶研究。他們中的大多數(shù)人認為這種模式很新鮮,并表現(xiàn)出極大的熱情繼續(xù)與機器人交談。

這款應用目前正在進行內(nèi)部測試,稍后將發(fā)布。

8. 概述

在本文中,我們提出了SLU任務的聯(lián)合學習模型。執(zhí)行局部自我注意和嵌入以提取句子特征,將其發(fā)送到雙向LSTM以捕獲單詞之間的關(guān)系。然后,使用共享特征在面罩門控機制中執(zhí)行意圖分類和縫隙填充任務。此外,我們應用了CRF層來約束時隙的輸出并獲得合理的結(jié)果。我們還基于提出的SLU方法,基于規(guī)則的跟蹤技能和基于模板的語言生成技能,設計了一種教育性APP,以幫助學生在實踐中很好地說和聽。此外,我們建立了幾個常見場景對話的數(shù)據(jù)集。我們將繼續(xù)擴大數(shù)據(jù)集并在以后發(fā)布。

9. 重點論文

  • Zhang, Xiaodong, and Houfeng Wang. "A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding." IJCAI. 2016.
  • Liu, Bing, and Ian Lane. "Attention-based recurrent neural network models for joint intent detection and slot filling." arXiv preprint arXiv:1609.01454 (2016).
  • Goo, Chih-Wen, et al. "Slot-gated modeling for joint slot filling and intent prediction." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). Vol. 2. 2018.
  • Li, Changliang, Liang Li, and Ji Qi. "A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding." Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
  • Xu, Puyang, and Ruhi Sarikaya. "Convolutional neural network based triangular crf for joint intent detection and slot filling." 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2013.

10. 代碼編寫

# 后續(xù)追加代碼分析

參考文獻

  1. Chen, M., Zeng, J., & Lou, J. (2019). A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications. CoRR.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容