對話系統(tǒng)任務綜述與基于POMDP的對話系統(tǒng)

作者丨李琳琳,趙世奇

文章來源丨中國中文信息學會青年工作委員會

注:本文的第一部分主要內(nèi)容基于“Review of spoken dialogue systems”(López-Cózar et al., 2015);第二部分翻譯自英文原文“POMDP-based statistical spokendialog systems: A review”(Yong et al., 2013)。

1?引言

本文第一部分對對話系統(tǒng)的領(lǐng)域研究現(xiàn)狀做一個領(lǐng)域綜述,第二部分我們詳細介紹一下當今對話領(lǐng)域的一個熱門課題:基于 POMDP 的統(tǒng)計對話管理系統(tǒng)。首先,我們對對話系統(tǒng)涉及的五種主要技術(shù)做一個綜合介紹;然后,我們簡要討論一下對話系統(tǒng)的發(fā)展歷史及其在健康等領(lǐng)域的應用實例。由于對話系統(tǒng)的一個核心組成部分是用戶,我們還會簡單討論一下用戶建模及其類型;接下來我們討論一下對話系統(tǒng)的研究趨勢,包括語音識別、多模交互、以及對話管理系統(tǒng)的主流研發(fā)技術(shù)。在第二部分,我們集中介紹基于統(tǒng)計的 POMDP 對話系統(tǒng)所涉及的思想及具體建模方法。

21?對話系統(tǒng)概述

隨著人機交互技術(shù)的進步,類似“環(huán)境智能(Ambient Intelligence)”這類課題更多的強調(diào)用戶友好性和智能交互性。為了確保自然的智能交互,非常有必要研發(fā)安全可靠的交互技術(shù)以在人機之間建立溝通的橋梁。本著這個初衷,過去的幾十年有很多研究致力于模仿人-人交互的模式來構(gòu)建人機交互系統(tǒng),我們稱之為對話系統(tǒng)(Spoken Dialogue Systems, SDSs)(Lopez-Cozar &Araki, 2005; McTear, 2004; Pieraccini, 2012)。

最早的對話系統(tǒng)僅僅處理簡單的交流任務,比如提供飛行旅行信息(Hempel, 2008)。當今的對話系統(tǒng)已經(jīng)越來越多的出現(xiàn)在更復雜的任務中,比如,智能環(huán)境(Intelligent Environments, Heinroth & Minker, 2013), 車載系統(tǒng)(Geutner etal., 2002),個人助手(Janarthanam et al., 2013), 智能家居(Krebber et al.,2004),及人機交互(Foster et al., 2014)等。對話系統(tǒng)涉及的另外一個重要課題是用戶建模(Andrade et al., 2014)。

本文第一部分我們對對話系統(tǒng)的領(lǐng)域研究現(xiàn)狀做一個任務綜述,并指出該領(lǐng)域的研究趨勢,其中各小節(jié)內(nèi)容如下:1)對話系統(tǒng)涉及的五種關(guān)鍵技術(shù);2)對話系統(tǒng)的演進歷史以及相關(guān)的科研項目;3)對話系統(tǒng)用戶建模;4)對話系統(tǒng)課題的研究趨勢;更智能化、多樣化,且具有可移植性以及多模功能。本文的第二部分將討論一種具體的數(shù)據(jù)驅(qū)動的統(tǒng)計對話系統(tǒng)。

對話系統(tǒng)涉及的五種主要技術(shù)

對話系統(tǒng)通常涉及五個主要的模塊:

語音識別(ASR)

口語理解(SLU)

對話管理(DM)

自然語言生成(NLG)

文本生成語音(TTS)

由于 ASR 模塊和 TTS 模塊涉及聲音信號的處理,不是本文的重點,我們僅限于討論 SLU, DM 以及 NLG 三個模塊。需要說明的是,對話系統(tǒng)還常常有一個單獨的模塊來存儲對話歷史。

口語理解(SLU)

口語理解是語音識別模塊的下游模塊,其任務是獲取輸入語音信號的語義表示,該語義通常以 frame 的形式表示(Allen, 1995)。而每一個 frame 通常又包含多個槽位,例如,在飛機訂票系統(tǒng)中,一個 SLU 的 frame 通常包含如下槽位:

speechActType

departureCity

destinationCity

destinationCity

departureDate

arrivalDate

airline

一個示例 SLU 模塊的輸出如下:

speechActType:訂票

departureCity:北京

destinationCity:上海

……

SLU 模塊的高精度實現(xiàn)是很困難的,因為語言中常常帶有歧義、人稱代詞、指示代詞、以及省略成分。該模塊的實現(xiàn)有兩種主流的方式,要么借助于句法分析,要么利用統(tǒng)計機器學習,也可以是兩者結(jié)合(Griol et al., 2014)。SLU 模塊也常常借助于對話歷史模塊的信息,其目的是搜索用戶最近的對話歷史找到當前 query 中沒有顯式提到的信息以更好的理解對話。

同時,口語理解系統(tǒng)還應該具有較好的魯棒性來處理語音識別的錯誤和噪音。相關(guān)的技術(shù)有,放寬語法檢查尺度,僅關(guān)注關(guān)鍵詞;或?qū)ψR別的句子進行部分分析,提取關(guān)鍵成分。很多統(tǒng)計方法在這方面有所應用,如(Lemon & Pietquin, 2012)等。

對話管理(DM)

口語理解的下游模塊是對話管理器 DM。該模塊的任務是決定系統(tǒng)如何回復給定的用戶輸入(McTear, 2004), 例如,向用戶提供信息,向用戶發(fā)出詢問以確認系統(tǒng)理解,或者請求用戶換一種句型表達需求。在上述飛機訂票的對話系統(tǒng)實例中,DM 可能會決定觸發(fā)一個詢問請求讓用戶來確認“出發(fā)城市”這個槽位的值是不是“北京”,其觸發(fā)原因可能是語音識別系統(tǒng)對“北京”這個詞的置信度值過低。 為了給用戶提供信息,對話管理器通常需要查詢數(shù)據(jù)庫或者互聯(lián)網(wǎng),同時它還需要考慮對話歷史模塊提供的信息。例如,DM 模塊可能根據(jù)對話歷史上下文發(fā)出詢問請求以補充缺失數(shù)據(jù)。對話管理模塊模式可以有多種:rule-based, plan-based 和基于增強學習的(Frampton & Lemon, 2009)。本文的第二部分將詳細討論數(shù)據(jù)驅(qū)動的對話系統(tǒng) POMDP。

自然語言生成(NLG)

對話管理器的決策會輸出給下游模塊進行自然語言生成(NLG)。由于對話管理器的輸出是抽象表達,我們的目標是將其轉(zhuǎn)換為句法和語義上合法的自然語言句子,同時考慮對話上下文的連貫性(Lemon, 2011)。許多主流的自然語言生成系統(tǒng)是基于模板的,其根據(jù)句子的類型制定相應的模板(Baptist & Seneff, 2000)。這些模版的某些成分是固定的,而另一些成分需要根據(jù)對話管理器的輸出結(jié)果進行填充。例如,下述模板可以用來生成句子以表示兩個城市間的航班。

我查到了趟號到的航班。

在該模板中,尖括號部分需要根據(jù)對話管理器的輸出值進行填充,填充后該 NLG 模塊輸出為:我查到了 30 趟 20 號從北京到上海的航班。

考慮到對話系統(tǒng)的連貫性,NLG 在生成語句的時候通常需要根據(jù)對話上下文綜合考慮。相關(guān)技術(shù)涉及如何省略表達,即,省略前文中已經(jīng)提到概念,或者使用代詞指代前文已經(jīng)出現(xiàn)的名詞。該過程依賴對話歷史模塊的存儲信息。NLG 模塊還需要過濾冗余重復信息,該過程又被稱為句子聚合(Dalianis,1999)。除了基于模板的 NLG 技術(shù)以外,最近也有一些基于統(tǒng)計的方式進行自然語言生產(chǎn),如(Dethlefs et al., 2013; Rieser et al., 2014)。由于篇幅限制,本文不對相關(guān)技術(shù)一一介紹。

對話系統(tǒng)的發(fā)展歷程

對話系統(tǒng)的歷史可以追溯到 18、19 世紀,最早是利用機械方式制造機器人來模仿人類行為,該學科的發(fā)展具有較長的演進史。

早期系統(tǒng)以及科研項目

20 世紀初,Stewart(1922)發(fā)明了用電能產(chǎn)生聲音的機器。20 世紀 40 年代出現(xiàn)了第一臺計算機,隨后圖靈提出了智能計算機的概念(Turing, 1950)。60 年代第一次出現(xiàn)了處理自然語言的計算機系統(tǒng),例如,ELIZA(Weizenbaum,1966)基于關(guān)鍵詞提取以及預定義模板將用戶輸入轉(zhuǎn)換為系統(tǒng)回答。而隨著語音識別、自然語言處理和語音合成等技術(shù)的發(fā)展,80 年代第一次出現(xiàn)了對話系統(tǒng),兩個代表性項目是:美國的 DARPA 口語系統(tǒng)和歐洲的 Esprit SUNDIAL 系統(tǒng)。在這兩個對話系統(tǒng)之后,MIT 和 CMU 相繼進行了一系列對話系統(tǒng)的研究。90 年代,DARPA Communicator 項目由美國政府資助進行語音技術(shù)研發(fā)。到如今,SDSs 的研發(fā)已涉及更廣的技術(shù),包括智能推理、多模交互以及跨語種交互等等(Heinroth & Minker, 2013)。

應用實例

SDSs 有著廣泛的應用實例,包括自動旅游旅行信息系統(tǒng)(Glass et al., 1995),天氣預報系統(tǒng)(Zue et al., 2000),銀行系統(tǒng)(Hardy et al., 2006; Melin et al., 2001)和會議協(xié)作系統(tǒng)(Andreani etal., 2006)等。我們僅就其在健康領(lǐng)域和 embodied agent 領(lǐng)域的應用做一個簡要介紹。

健康領(lǐng)域:SDSs 在醫(yī)療應用中能協(xié)助診療病人,例如,Bickmore & Giorgino (2006) 研發(fā)了對話診斷系統(tǒng),該系統(tǒng)用對話方式和病人交流,診斷疾病。該研究對于不方便現(xiàn)場就診的病人具有現(xiàn)實意義,同時有助于處理個人隱私和敏感信息問題。一些病人無法很好的當面與醫(yī)護工作者交流,第一,因為診療時間非常有限;第二,病人有可能忌諱一些非常隱私的問題(比如酗酒、抑郁、艾滋病等)。但是,智能對話系統(tǒng)就能有效的解決這些問題(Ahmad et al., 2009)。

過去的 20 年中,SDSs 已廣泛的應用在醫(yī)療領(lǐng)域,如醫(yī)療咨詢(Ghanem et al., 2005; Hubal & Day, 2006; Pfeifer & Bickmore,2010),慢性病監(jiān)測(Black et al., 2005),輔助開藥(Bickmore et al., 2010), 飲食引導(Delichatsios etal., 2001),幫助戒煙(Ramelson et al., 1999),及醫(yī)療診斷(Maglogiannis et al., 2009)。

Embodied Agent:SDSs 另一個常用場景是 Embodied Agent。該領(lǐng)域相關(guān)的系統(tǒng)原型有:COLLAGEN (Rich & Sidner, 1998), AVATALK (Hubal & Day, 2006) ,COMIC (Catizone et al., 2003),以及智能對話系統(tǒng)NICE(Corradini et al., 2004)。

用戶建模

用戶建模是 SDSs 的一個重要課題,其過程不僅僅局限于在對話系統(tǒng)設(shè)計階段建設(shè)靜態(tài)的 profile,也可以根據(jù)用戶狀態(tài)建立動態(tài) profile。SDSs 可以根據(jù)用戶的語音信息,說話狀態(tài)及情景建立大量的用戶 profile 數(shù)據(jù),然后利用這些數(shù)據(jù)理解用戶對話,并預測用戶行為。更具體來說,用戶建模涉及情感建模(Balahur et al., 2014; Schuller & Batliner,2013; Moors et al., 2013),人物性格建模(Nass & Yen, 2012),和上下文場景建模(Zhu & Sheng, 2011)等主要技術(shù)。

研究趨勢

語言是人類的特殊能力,SDSs 是 AI 領(lǐng)域的一個高難度題目,因為它涉及多個語言相關(guān)的子領(lǐng)域,如語音識別、語音合成、語言理解、語義表示、對話管理、語言生產(chǎn)、情感建模、以及多模交互。Grand View Research 公司做的一項研究調(diào)查報告顯示2012年對話系統(tǒng)的市場市值大約為 3.5 億美金,該公司預測到 2020 年會增長 31.7%。同時該項報告還指出,考慮到市場以及經(jīng)濟效應,人工客服領(lǐng)域?qū)⑹俏磥?SDSs 的一個大方向。下面我們討論一下 SDSs 主要研究方向。

語音識別

對話系統(tǒng)一個重要的組件是語音識別,其輸出錯誤是 SDSs 所面臨的第一個難題,未來如何降低語音識別噪音仍是一個大方向。其相關(guān)的技術(shù)有:降低背景噪音,預測用戶輸入,以及 ASR 系統(tǒng)情感識別(Batliner et al., 2010)。不同于傳統(tǒng)的基于 HMM 的語音識別,新趨勢越來越多的依賴深度學習(Dahl et al., 2011)??紤]到語音識別錯誤可能直接導致下游的對話管理器無法正確理解語義,降低語音識別噪音任重道遠。

多模交互

口語理解是 SDSs 另一個重要組成部分,其輸入不僅僅依賴于語音,還依賴于用戶表情、動作等多模信號(Bui, 2006; Lopez-Cozar, 2005)。該方面的研究很多,如歐盟的 Horizon2020 項目的一個子領(lǐng)域是語言技術(shù)(ICT-22-2014),其致力于多模計算機交互。SDSs 多模技術(shù)還包括語義多模融合(Russ et al., 2005),以及借助多模信號降低語音識別模塊噪音(Longe et al., 2012)。

對話管理

對話管理器是協(xié)調(diào)人機交互的中心模塊,它是一個相對成熟的研究課題,大致可分為如下四種類型(Jurafsky & Martin, 2009):

基于有限狀態(tài)和對話語法

基于Frame的系統(tǒng)

信息狀態(tài)更新(ISU)

馬爾可夫決策過程(MDPs)和部分可觀測的馬爾可夫過程(POMDPs)

有限狀態(tài)模型認為對話是一個狀態(tài)轉(zhuǎn)移序列圖,圖中每一個結(jié)點表示隱含的對話狀態(tài),對應于系統(tǒng)行為(如回答、詢問、確認、等等),結(jié)點之間的狀態(tài)轉(zhuǎn)移控制對話流。Nuance 的自動銀行系統(tǒng)就是根據(jù)這種方法設(shè)計的(McTear, 2002)。有限狀態(tài)模型常應用于自助語音服務系統(tǒng),其優(yōu)點是簡單易實現(xiàn),缺點是缺乏靈活性,難以處理復雜對話邏輯。

Frame-based 系統(tǒng)在前面簡單介紹過,其基本思想是填槽位。該方法可以在當前對話輪中填一個或者多個槽位,也可以覆寫或修正前面對話輪的填充內(nèi)容。基于Frame的對話管理系統(tǒng)還有一些衍生系統(tǒng),如 agenda(Bohus & Rudnicky, 2003), task structuregraphs,和 type hierarchies and blackboards (Rothkrantz et al., 2004) 等。

ISU 方式利用“信息狀態(tài)”將對話過程的所有可用信息進行建模(Larsson & Traum, 2000),即整合對話參與者的所有信息,而后建模對話行為。

以上三種對話管理模式都需要計算語言學專家設(shè)計并編寫對話方案,該策略會增加對話系統(tǒng)的設(shè)計開發(fā)成本,同時也會降低系統(tǒng)的可維護性。為了克服這些局限性,近來出現(xiàn)了基于機器學習的對話管理系統(tǒng),典型的代表是 MDP 和 POMDP。這些系統(tǒng)的基本思想是利用統(tǒng)計框架從大量的對話語料中自動學習對話管理模型(Young et al., 2013)。這種方式有兩個主要的優(yōu)點:第一,可以將不確定性表示引入到模型中,相對基于規(guī)則的系統(tǒng),其對語音和語義理解的噪音有更好的魯棒性。第二,這種框架具有自動學習功能,可以極大的降低人工開發(fā)成本。當然,這種方法也存在缺點,首先我們需要收集大量的對話數(shù)據(jù),然后還需要對這些數(shù)據(jù)進行標注。在本文第二部分,我們集中討論基于 POMDPs 的統(tǒng)計對話管理系統(tǒng)。

3?基于 POMDP 的統(tǒng)計對話管理系統(tǒng)

統(tǒng)計對話管理系統(tǒng)是一種數(shù)據(jù)驅(qū)動的方法,無需人工構(gòu)建對話管理機制,具有較好的魯棒性。部分可觀察的馬爾可夫決策過程(POMDPs)具有良好的數(shù)據(jù)驅(qū)動性,但問題是完整的建模和優(yōu)化計算代價巨大,甚至不可實現(xiàn)。在實際過程中,需對 POMDP-based 的系統(tǒng)近似優(yōu)化求解,以下內(nèi)容將對 POMDP-based 的系統(tǒng)的領(lǐng)域現(xiàn)狀做一個綜合介紹。

概述

傳統(tǒng)的 SDS 的主要組成部分如下圖 1 所示??谡Z理解模塊(SLU)將語言轉(zhuǎn)換成抽象語義表示,即用戶對話行為,而后系統(tǒng)更新其內(nèi)部狀態(tài),然后系統(tǒng)通過決策規(guī)則確定系統(tǒng)行為,最后語言生成模塊(NLG)將系統(tǒng)行為轉(zhuǎn)化為自然語言字符串。其中,狀態(tài)變量 包含跟蹤對話過程的變量,以及表示用戶需求的屬性值(又稱為slots)。在傳統(tǒng)對話系統(tǒng)中,決策規(guī)則是通過流程圖的方式實現(xiàn)的,圖中的結(jié)點表示狀態(tài)和行為,而邊則表示用戶輸入(Oshry et al., 2009; Paek & Pieraccini, 2008)。

▲ 圖 1:對話系統(tǒng)的主要組成部分

盡管語音識別技術(shù)在過去的幾十年不斷進步,但是在噪音環(huán)境中(如公共場所或者汽車內(nèi))的語音識別錯誤率仍高達15%-30%(Lippmann, 1997; Black et al., 2011)。對話處理機制必須要處理噪音問題,包括自動檢錯和恢復。正因為如此,傳統(tǒng)的基于流程圖的對話管理系統(tǒng)非常難以制定和維護。

新型的對話管理系統(tǒng)基于部分可觀察的馬爾可夫決策過程(POMDPs)(Williams & Young, 2007),該方法假定對話過程是馬爾可夫決策過程,也就是說,對話初始狀態(tài)是,?每一個后續(xù)狀態(tài)用轉(zhuǎn)移概率來表示:。狀態(tài)變量?是無法直接觀察到的,它代表了對用戶需求理解的不確定程度。系統(tǒng)把SLU的輸出看作是一個帶噪音的基于用戶輸入的觀察值,這個觀察值的概率為?,這里的轉(zhuǎn)移概率和生成概率用恰當?shù)碾S機統(tǒng)計模型表示,又稱為對話模型?M,而每個步驟中采取哪個行動則由另一個隨機模型控制,該模型稱之為對話策略?P。在對話過程中,每一步還需要一個回報函數(shù)來體現(xiàn)理想中的對話系統(tǒng)特性。對話模型?M?和對話策略?P?的優(yōu)化是通過最大化回報函數(shù)的期望來實現(xiàn)的,該過程可以通過直接用戶交互在線訓練,也可以利用離線的語料庫訓練,詳見下圖?2:

▲ 圖 2:基于 POMDP 的對話系統(tǒng)

基于?POMDP?的對話系統(tǒng)融合了兩個核心觀點:置信狀態(tài)跟蹤和增強學習。這兩個方面可以放在同一個框架下學習。與傳統(tǒng)方式相比,該方法具有如下優(yōu)點:

1.?置信狀態(tài)為語音識別噪聲提供了更好的魯棒性(Williams & Yong,?2007)。置信狀態(tài)在用戶輸入后的后驗概率可以借助于一種稱為“置信監(jiān)督(belief monitoring)”的貝葉斯推理過程更新。在設(shè)計置信狀態(tài)的過程中,可以借助模型先驗概率去捕捉用戶行為,而借助推理過程去探索所有的識別假設(shè)空間,如模糊網(wǎng)絡(luò)和?N-best lists。其特點是,融合多輪證據(jù)以降低單個錯誤的影響。與傳統(tǒng)方法不同,用戶的反復行為是得到激勵的,如果用戶足夠多次的重復一種表達,系統(tǒng)對他們所說的內(nèi)容的置信度也會隨之增加(前提是正確的假設(shè)候選出現(xiàn)在?N-best lists?中)。

2.?通過保存各個狀態(tài)的置信分布,系統(tǒng)可以并行的追蹤各種對話路徑,它不是貪婪的選擇當前最優(yōu)解而是綜合考慮各種狀態(tài)的全局解。當用戶輸入一個負反饋信號時,當前最可能解的概率被降低,焦點會聚集到另外一個狀態(tài)。因此,不需要回溯或者修改對話機制。強大的對話策略可以簡單的嵌入置信狀態(tài)到對話行為的映射中。

3. 顯式的表達狀態(tài)和行為能將回報函數(shù)和狀態(tài)行為對關(guān)聯(lián)起來。其回報綜合值組成了對話效果的客觀衡量標準,因此可以用離線語料庫或者在線用戶互動方式,借助增強學習提升效果。該方法具有最優(yōu)的決策策略,避免了人工調(diào)優(yōu)的勞動,可以容納復雜的規(guī)劃機制。

然而在實踐中運用?POMDP?并不容易,有許多實際問題需要解決。SDS?的狀態(tài)行為空間巨大,求解這個空間需要復雜的算法和軟件。實時的貝葉斯推理也非常難,完整的?POMDP?的學習策略是不可實現(xiàn)的,因此必須利用近似法求解。優(yōu)化基于?POMDP?的?SDS?的最直接方式是通過直接用戶對話。但是,通常難以找到足夠數(shù)量的用戶幫助訓練系統(tǒng),所以實踐中常常通過用戶模仿器的方式來對參數(shù)模型進行優(yōu)化。

部分可觀察的馬爾可夫決策過程

部分可觀察的馬爾可夫決策過程用一個多元組(S, A, T, R, O, Z,?)表示,其中?S?是狀態(tài)集;A?是行為集合;T?表示轉(zhuǎn)移概率?;R?是回報的期望值;O?是觀測值集合;Z?代表觀測概率; 是幾何衰減系數(shù),其值在?0-1?之間;是置信狀態(tài)的初始值。

POMDP?的過程如下:在每一個過程中,真實世界是一個無法觀察的狀態(tài) 。因為 是未知的,變量置信狀態(tài) 表示所有可能狀態(tài)的分布, 表示處在某個特定狀態(tài) 的概率。系統(tǒng)基于 選擇行為 ,得到一個激勵值 ,然后轉(zhuǎn)化到狀態(tài) ,這里 僅僅依賴于 和 。然后系統(tǒng)得到一個觀察值 ,該值依賴于 和 。這個過程如圖?3?所示:

▲ 圖 3:用 influence diagram 表示 POMDP;圓圈表示隱變量,帶陰影的圓圈表示觀測值,方塊表示系統(tǒng)行為,棱形表示回報值,箭頭表示因果關(guān)系。

給定置信狀態(tài) ,最近一次的系統(tǒng)行為以及觀察值,新的置信狀態(tài)的更新可以表示如下(Kaelblinget al., 1998):

這里 是正規(guī)化常量, 是系統(tǒng)沒有任何行動之前的初始置信狀態(tài)分布。

系統(tǒng)行為由 策略控制。最通用的策略是直接將置信狀態(tài)和行為進行直接映射 ,或者通過一個概率函數(shù)進行對應 ,這里是在 置信狀態(tài)?b?下采取行動?a?的概率,其滿足 。

以置信狀態(tài) 為開始的策略 的綜合回報函數(shù)定義如下:

該公式對應確定性策略(deterministic policy);

該公式對應隨機策略(stochastic policy)。 最佳對話策略通過優(yōu)化回報函數(shù)得到:

該策略也稱為?Bellman?優(yōu)化公式(Bellman, 1957)。在?POMDP?參考文獻中,尋找最優(yōu)策略?的過程稱之為“求解”和“優(yōu)化”過程。Kaelbling et al.?(1998)應用了精確求解方案,(Pineau et al., 2003; Smith & Simmons, 2004)提出了近似求解方案。但問題是通用的?POMDP?方法復雜度高,難以大規(guī)模的應用到實用對話系統(tǒng)。即使中小型規(guī)模,其涉及的狀態(tài)、行為、和觀察值很容易達到?量級。窮舉 是不可實現(xiàn)的,因此,直接優(yōu)化更新置信狀態(tài)優(yōu)化回報函數(shù)并不可行。通常情況下,我們需要簡化模型近似求解。接下來我們將詳細討論。

置信狀態(tài)表示和監(jiān)測

本小節(jié)集中討論圖?2?中對話系統(tǒng)模型?M。實用?SDS?中,狀態(tài)必須包含三種不同類型的信息:用戶的目標,用戶的真實意圖,以及對話歷史 (Williams& Young, 2007)。用戶目標包含需要完成任務所有信息,用戶真實意圖是指用戶實際想表達的意圖而非系統(tǒng)識別出的意圖,對話歷史跟蹤之前的對話流。由此,對話中的一個狀態(tài)包含三個因子:

引入條件獨立性假設(shè)以后,該過程可以表示為圖 4。將狀態(tài)分解成以上三個因子可以對狀態(tài)轉(zhuǎn)移矩陣進行降維,同時也減少了系統(tǒng)的條件依賴性。

▲ 圖 4:表示 SDS-POMDP 各個狀態(tài)因子的 influence diagram

結(jié)合置信更新和狀態(tài)因子兩公式,SDS?的更新策略可以表示為:

以上公式包含了對話系統(tǒng)的四個要素:

(a)觀察模型表示給定用戶真實表達?u,觀察值?o?的概率。它包含了語音識別系統(tǒng)的錯誤率。

(b)用戶模型表示在給定系統(tǒng)前一輪輸出和當前系統(tǒng)狀態(tài)下,用戶真實表達u的概率。它建模了用戶行為。

(c)目標轉(zhuǎn)移模型表現(xiàn)了用戶目標轉(zhuǎn)換的可能性。

(d)歷史模型:系統(tǒng)記憶的對話歷史。

雖然狀態(tài)因子模型極大的簡化了?POMDP?模型的復雜度,但是它仍舊復雜,難以在實際的系統(tǒng)中應用。因此還需要進一步近似化處理,通常有兩種常用技術(shù):

N-best?方法,包括剪枝和重組(Gasic& Yong, 2011)

貝葉斯網(wǎng)絡(luò)法(Thomson & Yong, 2010)

策略模型和增強學習

策略模型?P?提供了置信狀態(tài)?b?和系統(tǒng)行為?a?的映射。我們的目標是尋找一個最優(yōu)的策略最大化對話回報函數(shù)的綜合期望。

POMDP?的置信空間是一個高維空間。置信空間中臨近的點必須具有相同的行為值,因此,有必要用一種策略將置信空間的點進行區(qū)域劃分,確保同區(qū)域的點具有相同的行為值。當然,該行為映射必須保證讓每一個區(qū)域都有最佳的行為值。POMDP?系統(tǒng)的策略模型可以通過壓縮置信空間(Crook & Lemon,2011)或者動態(tài)狀態(tài)賦值(Doshi & Roy, 2008)實現(xiàn)。現(xiàn)實應用中,我們通常需要對策略進行簡化表示以降低推理復雜度。

我們可以根據(jù)實際應用加一些限定條件。首先,通常的對話系統(tǒng)僅僅用到相對小的置信空間;第二,可行行為的范圍在給定的置信空間內(nèi)通常是限定的。由此,這里有一個精簡的特征空間,我們稱之為?summary space。其中,狀態(tài)和行為都被簡化以方便策略表示和優(yōu)化(Williams & Yong, 2005; Williams & Yong, 2007)。Summary space?是全局問題空間的一個子空間,belief tracking?在整個問題空間中求解,而決策執(zhí)行和策略優(yōu)化僅在?summary space?中運行。問題空間和?summary space?中的運行方案如下:在置信更新后,問題空間中的置信狀態(tài)?b?被映射為一個特征向量和候選行為集合 。策略從一系列的候選行為集合中選取,然后將?summary space?中的映射回原問題空間中一個完整的行為?a。

Summary space?的轉(zhuǎn)換需要兩個組成部分:問題空間中選擇候選行為的機制,以及從置信狀態(tài)和候選行為中抽取特征的函數(shù)。最簡單的選取候選行為的方法是將可以對應到概念以及槽位(如:地點類型、食物類型、星級評價、等等)的對話行為(如:問候、問題、肯定、告知、等等)都包括在內(nèi),然后通過置信度對各個槽位賦值(Thomson & Young, 2010; Williams & Young, 2005)。該方法是全自動的,但它可能會包含一些錯誤的候選行為,如在對話的正中間進行問候,或者在沒有被問到某個值的時候,對該值進行確認。另外一類選擇候選行為的方法是?partial program(Andre & Russell, 2002; Williams, 2008),或者馬爾可夫邏輯網(wǎng)絡(luò)(Lison,2010)。這類方法可以在對話流中任意容納人工知識,同時顯式設(shè)定業(yè)務邏輯,比如,在進行資金轉(zhuǎn)賬之前要求輸入用戶密碼。同時,限定候選行為空間能更快的收斂到最優(yōu)策略,因為它已經(jīng)將很多的錯誤候選排除在外(Williams, 2008)。但是,這些規(guī)則需要人工制定,而人工規(guī)則可能錯誤的將最優(yōu)候選行為排除在外。作為一種折衷方案,有些系統(tǒng)允許每一個對話行為作為候選,但通過人工規(guī)則限定對話行為槽位(Yong et al., 2010)。

Summary space?轉(zhuǎn)換的第二個重要組成部分是從置信狀態(tài)以及候選行為中抽取特征的函數(shù)。我們通常為每一個對話行為構(gòu)建一個二進制特征,也可以針對每一個有效的行動/槽位對,例如?confirm (food)。這種方式通常會產(chǎn)生?20-30?維的行為特征,其每一維表示一個唯一行為。狀態(tài)特征通常是異構(gòu)的,包含實數(shù)值,二進制值,和枚舉類值。典型的狀態(tài)特征包括:最重要的?N?個用戶目標的置信度;各個槽位的?marginal belief;最重要的用戶目標屬性(如,匹配到的數(shù)據(jù)庫實體的數(shù)量);表示哪些系統(tǒng)行為可行的隱變量;對話歷史屬性值(如,是否已確認最重要的用戶目標);歷史用戶行為;或者上述特征的組合(Thomson & Yong, 2010; Williams & Yong, 2005; Williams, 2008;Yong et al., 2010)。通常系統(tǒng)具有?5?到?25?個特征,這些特征一般是手工選取的,也有些研究探索自動特征選?。╓illiams & Balakrishnan, 2009)。狀態(tài)特征不僅僅局限于置信狀態(tài)信息,也可以在置信狀態(tài)以外尋找特征,如數(shù)據(jù)庫中的信息,過去的對話歷史,或者上下文信息。

給定一個特定的?summary space,策略可以用表示為一個顯示的映射 ,或者表示為一個概率分布 ,后者行為的選取是通過對概率分布的抽樣實現(xiàn)的。策略是?summary belief state(狀態(tài))及?action(行為)的函數(shù),而不是原始問題空間的置信狀態(tài)和行為??梢哉J為新函數(shù)是對原問題空間的近似,也可以認為是另一個馬爾可夫過程,在這個過程中狀態(tài)和行為是?summary state?和?summary action。

在顯式的映射策略中,最常用的方法是尋找一個行為?a?以最大化?Q?函數(shù)(回報函數(shù)的數(shù)學期望),即:

這里的?Q?函數(shù)可以是帶參數(shù)的,也可以是無參的。如果不帶參數(shù),置信狀態(tài)會在一個離散的編碼集?中,?對任意一個狀態(tài)?都可以計算出其?Q?值。

有五種常用的方法來優(yōu)化策略:1.?planning under uncertainty;2.?valueiteration;3.?Monte-Carlo優(yōu)化;4.?最小平方策略迭代(LSPI);5.?natural actor-critic?(NAC)。這五種方式常常應用在?end-to-end?的對話系統(tǒng)中。除此之外,還有Q-learning(Scheffler & Young, 2002)和?SARSA(Henderson etal., 2008)等方法。由于篇幅限制,我們不對這些策略做一一介紹,感興趣的讀者可以閱讀相關(guān)參考文獻。

總的來說,planning under uncertainty?策略將置信狀態(tài)作為概率分布,而?valueiteration?和?Monte-Carlo?優(yōu)化需要首先將置信空間量化,LSPI?和?NAC?基于置信狀態(tài)特征的線性模型進行函數(shù)近似。

用戶模擬器

直接從語料庫中學習對話策略存在很多問題,比如收集數(shù)據(jù)中的狀態(tài)空間可能與策略優(yōu)化數(shù)據(jù)不同。另外,這種方式無法在線互動學習。因此我們可以構(gòu)建一個用戶模擬器,讓這個模擬器與對話系統(tǒng)直接進行互動。用戶模擬器不僅僅可以用來學習對話系統(tǒng),也可以用它來評估對話系統(tǒng)(Schatzmann et al., 2006)。用戶模擬器通常運行在抽象對話行為層。給定一系列的用戶行為和系統(tǒng)回復,其目標是對用戶回復的概率分布進行有效的建模:

正如前文提到的,在實際系統(tǒng)中對話管理系統(tǒng)的觀測值被噪音變量影響,因此用戶回復同時被用戶模型和噪音模型控制。模型 匹配在語料中的用戶回復,另外需要error model?建模語音識別及理解錯誤(Hastie, 2012; Pietquin & Hastie, 2012; Schatzmann et al., 2005; Williams, 2008)。

系統(tǒng)和應用

前面的幾個小節(jié)講述了統(tǒng)計對話系統(tǒng)的幾個主要模塊,其相關(guān)的技術(shù)在隨著時間進步完善。盡管在商業(yè)上推廣這些技術(shù)有一定的難度,但是在具體的場景中已有一定范圍應用。這里我們簡單的提幾個基于?POMDP?框架的對話系統(tǒng)。

這些系統(tǒng)大多都是非正式的inquiry系統(tǒng),包括語音呼叫(Janarthanam et al., 2011),旅游信息(Thomson &Yong, 2010),日程安排(Kim & Lee, 2007)和汽車導航(Kim et al., 2008)等。POMDP?也可應用于基于命令控制的系統(tǒng),如通過多模接口控制家電(Williams, 2007)。

POMDP?曾在?CMU?舉辦的“Let’s Go”競賽任務中被應用,其為?Pittsburgh?區(qū)域的居民播報非忙時段的公交車信息(Thomson et al., 2010)。在該應用中,用戶可能從多種不同的手機裝置來電,且通話環(huán)境通常有噪音,結(jié)果顯示,基于?POMDP?的系統(tǒng)明顯優(yōu)于傳統(tǒng)系統(tǒng)(Black et al., 2011)。

小結(jié)

統(tǒng)計對話系統(tǒng)提出數(shù)據(jù)驅(qū)動的框架,該方式可以有效的降低人工編寫復雜對話管理規(guī)則的開銷,同時對在噪音環(huán)境中的語音識別錯誤具有良好的魯棒性。通過一個顯式的對不確定性建模的貝葉斯模型和一種回報驅(qū)動的策略優(yōu)化機制,POMDP?建立了一個良好的對話系統(tǒng)框架。

但是,基于?POMDP?的對話系統(tǒng)非常復雜,通常需近似求解。這里有許多實際的研究問題,例如,如何在保持模型的復雜度的同時,讓置信狀態(tài)序列可解?如何減少策略學習的迭代次數(shù),從而能在真實用戶上訓練模型而不是借助用戶模擬器?同時,還需要將對話系統(tǒng)打包以及平臺化以使得非專家也能使用這些技術(shù)。

除此之外,POMDP?框架嚴重依賴回報函數(shù)。原則上來說,這是對話系統(tǒng)的優(yōu)點,因為它可以提供一個客觀的目標機制定義對話系統(tǒng)的設(shè)計標準。但是,實際應用中,我們很難直接從用戶那里獲得可信的回報信號,即使是最簡單的成功/失敗也很難獲得,比如,在被問到“系統(tǒng)是否回答了你所問的問題?”時,許多用戶出于禮貌會直接說“是”,或者由于對系統(tǒng)不切實際的過高期望而直接回答“否”?;貓蠛瘮?shù)可以基于用戶滿意度來獲取,而該滿意度值可以通過客觀的可以衡量的特征進行回歸計算獲取,該方法在?PARADISE?系統(tǒng)(Levin et al., 1997)上有所應用,也有其他的研究(Singh et al., 1999)在這個思路框架下進行。盡管如此,很多經(jīng)驗告訴我們,根據(jù)真實用戶反饋的在線學習策略必須要結(jié)合成熟的生物識別技術(shù),用客觀標準測量用戶情感滿意度。

4?總結(jié)

本文對對話系統(tǒng)的領(lǐng)域研究現(xiàn)狀做了一個整體介紹。對話系統(tǒng)的核心問題是處理多輪交互,讓人機之間的互動高效、自然、智能。在本文中我們涉及了對話系統(tǒng)的主要任務模塊,并做了簡單的概述,同時指出了對話系統(tǒng)所面臨的問題和挑戰(zhàn)。我們還介紹了對話系統(tǒng)的演進歷史及其應用實例,并從口語交流、多模交互和對話管理方面介紹了該領(lǐng)域的研究趨勢。接下來,本文詳細介紹了 POMDP 統(tǒng)計對話管理器的相關(guān)技術(shù)及領(lǐng)域現(xiàn)狀,同時也指出了其中的問題及面臨的挑戰(zhàn)。

5參考文獻

López-Cózar, & R.,Araki, M. (2005). Spoken, multilingual and multimodal dialogue systems:Development and assessment. John Wiley

López-Cózar, R., Callejas,Z., Griol, D., & Quesada, J. F. (2015). Review of spoken dialogue systems.Loquens, 1(2), e012.

McTear, M. F. (2002).Spoken dialogue technology: Enabling the conversational user interface. ACMComputing Surveys, 34(1), 90–169.http://dx.doi.org/10.1145/505282.505285

McTear, M. F. (2004).Spoken dialogue technology. Toward the conversational user interface. Springer.http://dx.doi.org/10.1007/978-0-85729-414-2

Pieraccini, R. (2012). Thevoice in the machine: Building computers that understand speech. Cambridge, MA:MIT Press.

Hempel, T. (2008).Usability of speech dialogue systems: Listening to the target audience.Springer.

Heinroth, T., &Minker, W. (2013). Introducing spoken dialogue systems into IntelligentEnvironments. New York: Springer.http://dx.doi.org/10.1007/978-1-4614-5383-3

Geutner, P., Steffens, F.,& Manstetten, D. (2002). Design of the VICO spoken dialogue system:Evaluation of user expectations by Wizard-of-Oz experiments. Proceedings of the3rd International Conference on Language Resources and Evaluation (LREC‘02),Canary Islands.

Janarthanam, S., Lemon,O., Liu, X., Bartie, P., Mackaness, W., & Dalmas, T. (2013). Amultithreaded conversational interface for pedestrian navigation and questionanswering. Proceedings of the 14th Annual Meeting of the Special Interest Groupon Discourse and Dialogue (SIGDIAL), 151–153.

Krebber, J. M?ller, S.,Pegam, R., Jekosch, U., Melichar, M., & Rajman, M. (2004). Wizard-of-Oztests for a dialog system in smart homes. Paper presented at the Joint CongressCFA/DAGA ’04, Strasbourg.

Foster, M. E., Giuliani,M., & Isard, A. (2014). Task-based evaluation of context-sensitivereferring expressions in human-robot dialogue.Language, Cognition andNeuroscience, 29(8), 1018–1034. http://dx.doi.org/10.1080/01690965.2013.855802

Andrade, A. O., Pereira,A. A., Walter, S., Almeida, R., Loureiro, R., Compagna, D., & Kyberd, P. J.(2014). Bridging the gap between robotic technology and health care. BiomedicalSignal Processing and Control, 10,65–78.http://dx.doi.org/10.1016/j.bspc.2013.12.009

Allen, J. (1995).Naturallanguage understanding. Redwood City, CA: The Benjamin Cummings.

Callejas, Z., Griol, D.,Engelbrecht, K.-P., & López-Cózar, R. (2014). A clustering approach toassess real user profiles in spoken dialogue systems. In J. Mariani, S. Rosset,M. Garnier-Rizet & L. Devillers (Eds.), Natural interaction with robots,knowbots and smartphones (pp. 327–334). New York: Springer. http://dx.doi.org/10.1007/978-1-4614-8280-2_29

Griol, D., Callejas, Z.,López-Cózar, R., & Riccardi, G. (2014). A domain-independent statisticalmethodology for dialog management in spoken dialog systems. Computer Speech andLanguage, 28(3), 743–768. http://dx.doi.org/10.1016/j.csl.2013.09.002

Lemon, O. (2011). Learningwhat to say and how to say it: Joint optimisation of spoken dialogue managementand natural language generation. Computer Speech and Language, 25(2), 210–221.http://dx.doi.org/10.1016/j.csl.2010.04.005

Lemon, O., & Pietquin,O. (Eds.) (2012). Data-driven methods for adaptive spoken dialogue systems:Computational learning for conversational interfaces. Springer.http://dx.doi.org/10.1007/978-1-4614-4803-7

Frampton, M., & Lemon,O. (2009). Recent research advances in reinforcement learning in spokendialogue systems. Knowledge Engineering Review, 24(4), 375–408.http://dx.doi.org/10.1017/S0269888909990166

Baptist, L., & Seneff,S. (2000). GENESIS-II: A versatile system for language generation inconversational system applications.Proceedings of the 6th InternationalConference on Spoken Language Processing (ICSLP ’00), 3, 271–274.

Dalianis, H. (1999).Aggregation in natural language generation. Computational Intelligence, 15(4),384–414.http://dx.doi.org/10.1111/0824-7935.00099

Dethlefs, N., Hastie, H.,Cuayáhuitl, H., & Lemon, O. (2013). Conditional random fields forresponsive surface realisation using global features. Proceedings of the 51stAnnual Meeting of the Association for Computational Linguistics (ACL),1254–1263.

Rieser, V., Lemon, O.,& Keizer, S. (2014). Natural language generation as incremental planningunder uncertainty: Adaptive information presentation for statistical dialoguesystems. IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(5),979–994. http://dx.doi.org/10.1109/TASL.2014.2315271

Stewart, J. Q. (1922). Anelectrical analogue of the vocal organs. Nature, 110, 311–312.http://dx.doi.org/10.1038/110311a0

Turing, A. (1950).Computing machinery and intelligence. Mind, 236, 433–460.http://dx.doi.org/10.1093/mind/LIX.236.433

Weizenbaum, J. (1966).ELIZA–A computer program for the study of natural language communicationbetween man and machine.Communications of the ACM, 9(1), 36–45. http://dx.doi.org/10.1145/365153.365168

Glass, J., Flammia, G.,Goodine, D., Phillips, M., Polifroni, J., Sakai, S., … & Zue, V. (1995).Multilingual spoken-language understanding in the MIT Voyager system. SpeechCommunication, 17(1–2), 1–18. http://dx.doi.org/10.1016/0167-6393(95)00008-C

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容