不卡不卡5区,夜夜爽中文字幕久久

本文總結自 Amazon 論文: On Evaluating and Comparing Open Domain Dialog Systems
—— Anu Venkatesh, Amazon

1. 開放域?qū)υ捪到y(tǒng)簡介

開放域?qū)υ捪到y(tǒng)指的是沒有明顯目標，而旨在讓對話方開心愉悅的對話系統(tǒng)，例如亞馬遜Alexa，微軟Cortana，微軟小冰，蘋果Siri，小愛同學，天貓精靈等都算是開放域?qū)υ捪到y(tǒng)，而像國內(nèi)某些快遞公司或者銀行上線的智能客服系統(tǒng)，只能識別特定回答，不具備閑聊功能的，則不算是開放域?qū)υ捪到y(tǒng)。為了提高開放域?qū)υ捪到y(tǒng)的水平，2017-2018年Amazon曾經(jīng)舉辦了2次Alex Prize比賽懸賞250萬美金給大學生參賽隊伍。通過在比賽中找真人對參賽隊伍創(chuàng)造的對話系統(tǒng)進行評分，這賽事為Amazon積累了不少對話系統(tǒng)的評價數(shù)據(jù)。并且Amazon研究人員還嘗試用這些數(shù)據(jù)做了一下基于機器學習的對話質(zhì)量評價系統(tǒng)。

這篇文章會先回顧一下論文里提到的傳統(tǒng)的評價指標，然后介紹Amazon這篇論文里的所謂“至今為止最綜合性的”評價指標。

2. 評估開放域?qū)υ捪到y(tǒng)的難點

由于人工評測的高成本和低效率，所以學界基本上都在使用機器翻譯評價指標BLEU和文本總結評價指標ROUGE（下文會詳細講）
有學者(Liu et al., 2016)研究發(fā)現(xiàn)這些指標同人工評價相關性很低（也就是說不符合人的標準）
又有學者發(fā)現(xiàn)了另外的問題，對話系統(tǒng)領域的數(shù)據(jù)集質(zhì)量一般，他們都用類似于Reddit, Twitter上爬取的一些對話數(shù)據(jù)去訓練，而這些數(shù)據(jù)不論是在質(zhì)量，對話的輪數(shù)，以及上下文話題統(tǒng)一等方面都存在一些問題。

有人說，圖靈測試不就是干這個的嗎？把一個人和一臺機器放在黑盒子里，外面的人和他對話，看外面的人是否可以判斷出該人是真人還是機器。

圖靈測試

然鵝，圖靈測試用于對話系統(tǒng)評測是有問題的：

沒有可比性： 對話系統(tǒng)和人類所擁有的知識不同，處理方式也不同，所以不能要求機器產(chǎn)生和人類似的回答。對話系統(tǒng)的回答即便不像人，也不一定就不是一個好的回答。
圖靈測試傾向于產(chǎn)生花言巧語但沒有實質(zhì)內(nèi)容的回答： 好的對話系統(tǒng)需要有實質(zhì)的有價值的信息。
目的不同： 圖靈測試是為了讓人類無法分辨對話方是真人還是機器，而對話系統(tǒng)的標準應該是對話體驗以及是否能達到對話方的目的（例如回答問題，訂餐等）。

因此，Amazon在舉辦Alex Price杯對話系統(tǒng)比賽時，規(guī)定了一個評測框架，這個框架包含參與度(engagement), 覆蓋度(domain coverage), 連貫性(coherence), 話題多樣性(topical diversity), 以及話題深度(conversational depth)這5大類，都是用的人工評測的方式。這個評測框架就是這篇文章的主要貢獻。

最后，砸錢弄了比賽，提高了Amazon的Alexa人工智障的智障度，成功賺到了錢。那那些數(shù)據(jù)怎么最大化利用呢？這不正好是有人工標注么，拿60000條對話和那些人工標注跑個模型，試試搞個自動打分器，本來就是人打的分數(shù)，那跟人的打分相關度肯定高了，還能順便發(fā)篇paper，真香！作者在文章里就試了倆模型，Hierarchical LSTM和GBDT，自己也說就是小試一下而已 (This experiment was done to obtain the potential of automating the ratings.)，誠意著實是一般了。

3. 傳統(tǒng)的自動評價指標

3.1 目標導向?qū)υ捪到y(tǒng)(goal-oriented dialogue system)的評價指標

TRAINS (Ferguson et al., 1996)
PARADISE (Walker et al., 1997)
SASSI (Hone and Graham, 2000)
MIMIC (Chu-Carroll, 2000)

3.2 機器翻譯(Machine Translation)的評價指標

BLEU (Papineni et al., 2002)
最常見的評價指標，是一種詞重疊評價指標，基于兩句句子的共現(xiàn)詞頻率
METEOR (Banerjee and Lavie, 2005)

3.3 文本摘要(Text Summarization)的評價指標

ROUGE (Banerjee and Lavie, 2005)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

??如何評估開放域?qū)υ捪到y(tǒng)????的好壞？

??如何評估開放域?qū)υ捪到y(tǒng)????的好壞？

1. 開放域?qū)υ捪到y(tǒng)簡介

2. 評估開放域?qū)υ捪到y(tǒng)的難點

3. 傳統(tǒng)的自動評價指標

3.1 目標導向?qū)υ捪到y(tǒng)(goal-oriented dialogue system)的評價指標

3.2 機器翻譯(Machine Translation)的評價指標

3.3 文本摘要(Text Summarization)的評價指標

4. 論文中為Alex Price比賽所定義的評判指標

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

??如何評估開放域?qū)υ捪到y(tǒng)????的好壞？

1. 開放域?qū)υ捪到y(tǒng)簡介

2. 評估開放域?qū)υ捪到y(tǒng)的難點

3. 傳統(tǒng)的自動評價指標

3.1 目標導向?qū)υ捪到y(tǒng)(goal-oriented dialogue system)的評價指標

3.2 機器翻譯(Machine Translation)的評價指標

3.3 文本摘要(Text Summarization)的評價指標

4. 論文中為Alex Price比賽所定義的評判指標

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av