本文總結自 Amazon 論文: On Evaluating and Comparing Open Domain Dialog Systems
—— Anu Venkatesh, Amazon
1. 開放域?qū)υ捪到y(tǒng)簡介
開放域?qū)υ捪到y(tǒng)指的是沒有明顯目標,而旨在讓對話方開心愉悅的對話系統(tǒng),例如亞馬遜Alexa,微軟Cortana,微軟小冰,蘋果Siri,小愛同學,天貓精靈等都算是開放域?qū)υ捪到y(tǒng),而像國內(nèi)某些快遞公司或者銀行上線的智能客服系統(tǒng),只能識別特定回答,不具備閑聊功能的,則不算是開放域?qū)υ捪到y(tǒng)。為了提高開放域?qū)υ捪到y(tǒng)的水平,2017-2018年Amazon曾經(jīng)舉辦了2次Alex Prize比賽懸賞250萬美金給大學生參賽隊伍。通過在比賽中找真人對參賽隊伍創(chuàng)造的對話系統(tǒng)進行評分,這賽事為Amazon積累了不少對話系統(tǒng)的評價數(shù)據(jù)。并且Amazon研究人員還嘗試用這些數(shù)據(jù)做了一下基于機器學習的對話質(zhì)量評價系統(tǒng)。
這篇文章會先回顧一下論文里提到的傳統(tǒng)的評價指標,然后介紹Amazon這篇論文里的所謂“至今為止最綜合性的”評價指標。
2. 評估開放域?qū)υ捪到y(tǒng)的難點
- 由于人工評測的高成本和低效率,所以學界基本上都在使用機器翻譯評價指標BLEU和文本總結評價指標ROUGE(下文會詳細講)
- 有學者(Liu et al., 2016)研究發(fā)現(xiàn)這些指標同人工評價相關性很低(也就是說不符合人的標準)
- 又有學者發(fā)現(xiàn)了另外的問題,對話系統(tǒng)領域的數(shù)據(jù)集質(zhì)量一般,他們都用類似于Reddit, Twitter上爬取的一些對話數(shù)據(jù)去訓練,而這些數(shù)據(jù)不論是在質(zhì)量,對話的輪數(shù),以及上下文話題統(tǒng)一等方面都存在一些問題。
有人說,圖靈測試不就是干這個的嗎?把一個人和一臺機器放在黑盒子里,外面的人和他對話,看外面的人是否可以判斷出該人是真人還是機器。

然鵝,圖靈測試用于對話系統(tǒng)評測是有問題的:
- 沒有可比性: 對話系統(tǒng)和人類所擁有的知識不同,處理方式也不同,所以不能要求機器產(chǎn)生和人類似的回答。對話系統(tǒng)的回答即便不像人,也不一定就不是一個好的回答。
- 圖靈測試傾向于產(chǎn)生花言巧語但沒有實質(zhì)內(nèi)容的回答: 好的對話系統(tǒng)需要有實質(zhì)的有價值的信息。
- 目的不同: 圖靈測試是為了讓人類無法分辨對話方是真人還是機器,而對話系統(tǒng)的標準應該是對話體驗以及是否能達到對話方的目的(例如回答問題,訂餐等)。
因此,Amazon在舉辦Alex Price杯對話系統(tǒng)比賽時,規(guī)定了一個評測框架,這個框架包含參與度(engagement), 覆蓋度(domain coverage), 連貫性(coherence), 話題多樣性(topical diversity), 以及話題深度(conversational depth)這5大類,都是用的人工評測的方式。這個評測框架就是這篇文章的主要貢獻。
最后,砸錢弄了比賽,提高了Amazon的Alexa人工智障的智障度,成功賺到了錢。那那些數(shù)據(jù)怎么最大化利用呢?這不正好是有人工標注么,拿60000條對話和那些人工標注跑個模型,試試搞個自動打分器,本來就是人打的分數(shù),那跟人的打分相關度肯定高了,還能順便發(fā)篇paper,真香!作者在文章里就試了倆模型,Hierarchical LSTM和GBDT,自己也說就是小試一下而已 (This experiment was done to obtain the potential of automating the ratings.),誠意著實是一般了。
3. 傳統(tǒng)的自動評價指標
3.1 目標導向?qū)υ捪到y(tǒng)(goal-oriented dialogue system)的評價指標
TRAINS (Ferguson et al., 1996)
PARADISE (Walker et al., 1997)
SASSI (Hone and Graham, 2000)
MIMIC (Chu-Carroll, 2000)
3.2 機器翻譯(Machine Translation)的評價指標
- BLEU (Papineni et al., 2002)
最常見的評價指標,是一種詞重疊評價指標,基于兩句句子的共現(xiàn)詞頻率 - METEOR (Banerjee and Lavie, 2005)