??如何評估開放域?qū)υ捪到y(tǒng)????的好壞?

本文總結自 Amazon 論文: On Evaluating and Comparing Open Domain Dialog Systems
—— Anu Venkatesh, Amazon

1. 開放域?qū)υ捪到y(tǒng)簡介

開放域?qū)υ捪到y(tǒng)指的是沒有明顯目標,而旨在讓對話方開心愉悅的對話系統(tǒng),例如亞馬遜Alexa,微軟Cortana,微軟小冰,蘋果Siri,小愛同學,天貓精靈等都算是開放域?qū)υ捪到y(tǒng),而像國內(nèi)某些快遞公司或者銀行上線的智能客服系統(tǒng),只能識別特定回答,不具備閑聊功能的,則不算是開放域?qū)υ捪到y(tǒng)。為了提高開放域?qū)υ捪到y(tǒng)的水平,2017-2018年Amazon曾經(jīng)舉辦了2次Alex Prize比賽懸賞250萬美金給大學生參賽隊伍。通過在比賽中找真人對參賽隊伍創(chuàng)造的對話系統(tǒng)進行評分,這賽事為Amazon積累了不少對話系統(tǒng)的評價數(shù)據(jù)。并且Amazon研究人員還嘗試用這些數(shù)據(jù)做了一下基于機器學習的對話質(zhì)量評價系統(tǒng)。

這篇文章會先回顧一下論文里提到的傳統(tǒng)的評價指標,然后介紹Amazon這篇論文里的所謂“至今為止最綜合性的”評價指標。

2. 評估開放域?qū)υ捪到y(tǒng)的難點

  • 由于人工評測的高成本和低效率,所以學界基本上都在使用機器翻譯評價指標BLEU文本總結評價指標ROUGE(下文會詳細講)
  • 有學者(Liu et al., 2016)研究發(fā)現(xiàn)這些指標同人工評價相關性很低(也就是說不符合人的標準)
  • 又有學者發(fā)現(xiàn)了另外的問題,對話系統(tǒng)領域的數(shù)據(jù)集質(zhì)量一般,他們都用類似于Reddit, Twitter上爬取的一些對話數(shù)據(jù)去訓練,而這些數(shù)據(jù)不論是在質(zhì)量,對話的輪數(shù),以及上下文話題統(tǒng)一等方面都存在一些問題。

有人說,圖靈測試不就是干這個的嗎?把一個人和一臺機器放在黑盒子里,外面的人和他對話,看外面的人是否可以判斷出該人是真人還是機器。

圖靈測試

然鵝,圖靈測試用于對話系統(tǒng)評測是有問題的:

  • 沒有可比性: 對話系統(tǒng)和人類所擁有的知識不同,處理方式也不同,所以不能要求機器產(chǎn)生和人類似的回答。對話系統(tǒng)的回答即便不像人,也不一定就不是一個好的回答。
  • 圖靈測試傾向于產(chǎn)生花言巧語但沒有實質(zhì)內(nèi)容的回答: 好的對話系統(tǒng)需要有實質(zhì)的有價值的信息。
  • 目的不同: 圖靈測試是為了讓人類無法分辨對話方是真人還是機器,而對話系統(tǒng)的標準應該是對話體驗以及是否能達到對話方的目的(例如回答問題,訂餐等)。

因此,Amazon在舉辦Alex Price杯對話系統(tǒng)比賽時,規(guī)定了一個評測框架,這個框架包含參與度(engagement), 覆蓋度(domain coverage), 連貫性(coherence), 話題多樣性(topical diversity), 以及話題深度(conversational depth)這5大類,都是用的人工評測的方式。這個評測框架就是這篇文章的主要貢獻。

最后,砸錢弄了比賽,提高了Amazon的Alexa人工智障的智障度,成功賺到了錢。那那些數(shù)據(jù)怎么最大化利用呢?這不正好是有人工標注么,拿60000條對話和那些人工標注跑個模型,試試搞個自動打分器,本來就是人打的分數(shù),那跟人的打分相關度肯定高了,還能順便發(fā)篇paper,真香!作者在文章里就試了倆模型,Hierarchical LSTM和GBDT,自己也說就是小試一下而已 (This experiment was done to obtain the potential of automating the ratings.),誠意著實是一般了。

3. 傳統(tǒng)的自動評價指標

3.1 目標導向?qū)υ捪到y(tǒng)(goal-oriented dialogue system)的評價指標

3.2 機器翻譯(Machine Translation)的評價指標

3.3 文本摘要(Text Summarization)的評價指標

4. 論文中為Alex Price比賽所定義的評判指標

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容