1. 簡稱
論文《A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications》,作者Mengyang Chen(ByteDance Corporation, China),經(jīng)典的NLU論文(Semantic Frame)。
2. 摘要
無
3. 引言
口語理解(SLU)是面向目標的對話系統(tǒng)中的重要組成部分。它通常涉及識別說話者的意圖并從用戶話語中提取語義槽位,這被稱為意圖檢測(ID)和空位填充(SF)。表I展示了一個來自航空旅行信息系統(tǒng)(ATIS)語料庫的示例。近年來,人們對SLU問題進行了深入研究。但是,這些方法只是在語法上限制了SF結(jié)果,獨立地解決了ID和SF,或者沒有充分利用兩個任務的相互影響。本文提出了一個具有條件隨機場(CRF)層和先驗掩碼的多頭自注意力模型。實驗表明,與最新模型相比,我們模型的有效性。同時,最近幾年中國的在線教育取得了長足的進步。但是,很少有用于學生學習外語的智能教育對話應用程序。因此,我們設計了一個智能對話機器人,該機器人配備了不同的場景設置,可以幫助學生學習交流技能。

我們提出了一個聯(lián)合模型,該模型使用多頭局部自注意來提取共享特征,使用掩碼門控機制來探索輸出的相關(guān)性,并使用CRF來約束SF輸出,以完美地解決該問題。
4. 核心

我們在本節(jié)中介紹我們的模型,概述為圖一。第一層將輸入序列映射成向量,通過把詞級別嵌入
和從BI-LSTM中獲取字級別的嵌入
連接起來。其中
是序列中單詞索引。由于上下文信息(尤其是相鄰單詞)在序列標記中很有用,因此我們采用多頭局部自注意來提取上下文感知特征
。局部上下文特征是
和注意力輸出計算公式為:
其中和
是用于第
個詞和第
個頭的局部自注意力的第一層和第二層權(quán)重。Bi-LSTM層產(chǎn)生
,將其用于使用多層完全連接分類器對意圖
進行分類。
在訓練期間使用了交叉熵損失,并且意圖標簽對應于在預測期間給出最高概率的索引。
隱藏狀態(tài)也被發(fā)送到類似的多頭本地自我關(guān)注結(jié)構(gòu)以生成。由于在不同意圖下的槽分布是不同的,我們采用一個先驗掩碼,它是一個由意圖
給出槽的條件概率分布。我們將掩碼和意圖輸出相乘,將結(jié)果與
連接起來,最后放入一個CRF層去獲取受約束的槽結(jié)果
,我們把
當做注意力的輸出矩陣的得分。
表示第
個詞的
標簽的得分,我們定義得分函數(shù)為:
所有可能的標簽序列上的softmax產(chǎn)生序列的概率。我們在訓練過程中最大化正確標簽序列的對數(shù)概率。解碼時,對得分最高的輸出序列進行預測。
5. 實驗
為了評估所提出模型的效率,我們對ATIS和Snips數(shù)據(jù)集進行了實驗,這些數(shù)據(jù)集被廣泛用作SLU研究的基準。 ATIS包含預訂機票的人的錄音。片段是從個人語音助手收集的。插槽填充任務的性能由F1分數(shù)衡量,而意圖檢測任務則以預測精度進行評估。表II中列出了針對其他方法的模型結(jié)果。與最新方法相比,我們的方法在兩個數(shù)據(jù)集上的ID分別提高了0.14%和0.49%,在SF中分別提高了0.02%和0.04%。

6. 實際應用
在過去的很長一段時間里,非英語母語的學生在語法或閱讀理解上花費了太多的時間,以至于他們要么專注于言語影子,要么專注于簡單的對話,而沒有復雜的對話狀態(tài)跟蹤,從而不能幫助學生流利地表達和處理復雜場景下的對話。

為了幫助K12學生更好地處理旅行、購物和點餐等現(xiàn)實場景,我們設計了一個對話應用程序。該框架實際上是一個標準的面向目標的對話系統(tǒng),如圖4所示。首先,Agent采用前面討論的SLU方法來分析學生的意圖和槽值。其次,利用基于規(guī)則的對話跟蹤技術(shù)記錄會話狀態(tài)變化,并做出相應的動作。最后,使用預定義的模板生成響應。
由于本文討論的主題是SLU,為了方便起見,我們?nèi)サ袅薃SR和TTS模塊,使用了一個簡化的版本(實際使用的是百度語音API)。

圖2顯示了一個購物示例,圖3是DST的偽代碼和決策邏輯。

當學生不知道如何回應時,可以通過在APP中選擇“幫助”來獲取提示。
7. EVIDENCE OF POTENTIAL IMPACTS
教育是全世界人民都非常重視的領(lǐng)域。
相關(guān)研究表明,中國只有四分之一的學生可以進入本科學習,這遠遠少于發(fā)達國家。幸運的是,在過去的幾年里,教育行業(yè)取得了很大的進步。2013年以來,中國K12市場規(guī)模增速保持在30%以上。然而,由于巨大的租金和教師工資成本,傳統(tǒng)公司遇到了利潤問題。他們將重點轉(zhuǎn)向在線教育方案,其中CR4(四家公司集中率)低于5%,目前還沒有大型公司存在。此外,中國還制定了政府計劃,鼓勵新興市場力量進入這一領(lǐng)域。對于父母來說,他們高度重視英語學習,并愿意為加強孩子的口語和聽力技能買單。然而,流行的應用,如VIPKID,主要集中在語音陰影上,不能完全滿足他們的需求。事實上,學習外語的核心目標是在日常對話中流利地說和聽。
只有幾家公司專注于情景對話,他們只使用簡單的邏輯來跟蹤對話狀態(tài)。換句話說,如果沒有預定義的用戶話語,對話將無法繼續(xù)。學生們可能會對這樣的模式感到厭倦。基于我們的方法設計的會話機器人提供了更大的交談自由度,并跟蹤不同意圖和槽值之間的對話狀態(tài)轉(zhuǎn)換。
我們從北京當?shù)刂行W抽取了50名K12學生,進行了一項用戶研究。他們中的大多數(shù)人認為這種模式很新鮮,并表現(xiàn)出極大的熱情繼續(xù)與機器人交談。
這款應用目前正在進行內(nèi)部測試,稍后將發(fā)布。
8. 概述
在本文中,我們提出了SLU任務的聯(lián)合學習模型。執(zhí)行局部自我注意和嵌入以提取句子特征,將其發(fā)送到雙向LSTM以捕獲單詞之間的關(guān)系。然后,使用共享特征在面罩門控機制中執(zhí)行意圖分類和縫隙填充任務。此外,我們應用了CRF層來約束時隙的輸出并獲得合理的結(jié)果。我們還基于提出的SLU方法,基于規(guī)則的跟蹤技能和基于模板的語言生成技能,設計了一種教育性APP,以幫助學生在實踐中很好地說和聽。此外,我們建立了幾個常見場景對話的數(shù)據(jù)集。我們將繼續(xù)擴大數(shù)據(jù)集并在以后發(fā)布。
9. 重點論文
- Zhang, Xiaodong, and Houfeng Wang. "A Joint Model of Intent Determination and Slot Filling for Spoken Language Understanding." IJCAI. 2016.
- Liu, Bing, and Ian Lane. "Attention-based recurrent neural network models for joint intent detection and slot filling." arXiv preprint arXiv:1609.01454 (2016).
- Goo, Chih-Wen, et al. "Slot-gated modeling for joint slot filling and intent prediction." Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). Vol. 2. 2018.
- Li, Changliang, Liang Li, and Ji Qi. "A Self-Attentive Model with Gate Mechanism for Spoken Language Understanding." Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
- Xu, Puyang, and Ruhi Sarikaya. "Convolutional neural network based triangular crf for joint intent detection and slot filling." 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2013.
10. 代碼編寫
# 后續(xù)追加代碼分析
參考文獻
- Chen, M., Zeng, J., & Lou, J. (2019). A Self-Attention Joint Model for Spoken Language Understanding in Situational Dialog Applications. CoRR.