簡(jiǎn)評(píng)《A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task》

論文來(lái)源:ACL2016

作者:Danqi?Chen?and?Jason?Bolton?and?Christopher?D.?Manning

Computer?Science?Stanford?University ? ?

問(wèn)題:機(jī)器閱讀理解問(wèn)題(Reading?Comprehension)

主要方法:

1.提取特征構(gòu)建傳統(tǒng)的分類器,這里其實(shí)是轉(zhuǎn)換成了候選實(shí)體的ranking問(wèn)題,即將ranking得分最高的實(shí)體作為答案。這里主要用了以下八個(gè)特征

(1)Whether?entity?e?occurs?in?the?passage

(2)Whether?entity?e?occurs?in?the?question

(3)The?frequency?of?entity?e?in?the?passage.

(4)The?first?position?of?occurence?of?entity?e?in?the?passage.

(5)n-gram?exact?match

(6)Word?distance

(7)Sentence?co-occurrence

(8)Dependency?parse?match

2.End-to-end?Neural?Network,利用帶attention的神經(jīng)網(wǎng)絡(luò)去訓(xùn)練并預(yù)測(cè)正確答案。


這里的神經(jīng)網(wǎng)絡(luò)模型主要是利用雙向LSTM對(duì)passage和question分別進(jìn)行encoding,并利用詞與問(wèn)題之間的相關(guān)性得到attention值,利用這個(gè)attention值對(duì)passage的embedding進(jìn)行加權(quán),得到一個(gè)最終的輸出向量o,用于答案的預(yù)測(cè)。具體公式如下:

Encoding:

(i)p:?p1,...,pm∈Rd?and?q?:?q1,...,ql∈Rd.

(ii)a?shallow?bi-directional?LSTM?with?hidden?size?h???to?encode?contextual

embeddings??of?each?word?in?the?passage


(iii)?another?bi-directional?LSTM?to?map?the?question?q1,...,ql?toan?embedding?q∈Rh.

Attention:


Prediction:


相關(guān)工作:

1.?AttentiveReader(Hermann?et?al.,?2015)?based?on?CNN?and?Daily?Mail?datasets

2.?MCTest?(Richardson?et?al.,?2013)主要是短篇的小說(shuō)故事,并帶有what,?why,?how,?whose,?which這些類型的問(wèn)題,數(shù)據(jù)集共有660篇,每篇帶有四個(gè)問(wèn)題,對(duì)于這個(gè)數(shù)據(jù)集,目前比較好的方法還是依賴于人工構(gòu)建出來(lái)的句法和語(yǔ)義特征并結(jié)合上一些附加的先驗(yàn)知識(shí)

3.?Children?Book?Test?(Hill?et?al.,?2016)從兒童故事書中抽出連續(xù)的21個(gè)句子,將前20句作為passage,目標(biāo)是預(yù)測(cè)出第21句中缺失的詞。對(duì)于預(yù)測(cè)動(dòng)詞和介詞,利用語(yǔ)言模型或rnn并結(jié)合詞的上下文信息是比較有效的,但對(duì)命名實(shí)體以及普通名詞則需要利用全文的信息去做預(yù)測(cè)。對(duì)于該數(shù)據(jù)集,目前比較好的方法是基于窗口的記憶網(wǎng)絡(luò)(window-based?memory?networks)

4.?bAbI?(Weston?et?al.,?2016)人工構(gòu)建的數(shù)據(jù)集,包含20種不同的推理類型,主要側(cè)重于推理、歸納、演繹的能力,目前許多種類型的記憶網(wǎng)絡(luò)在這個(gè)數(shù)據(jù)集上能獲得比較好的效果。但是這個(gè)數(shù)據(jù)集的詞表很小,只有100~200個(gè)詞,而且語(yǔ)言變化相對(duì)簡(jiǎn)單,與實(shí)際數(shù)據(jù)有一定差距。

簡(jiǎn)評(píng):

這篇論文主要是基于Hermann的《Teaching?Machines?to?Read?and?Comprehend》更深入地做了一些研究工作。對(duì)于CNN/Daily?Mail數(shù)據(jù)集,作者提出了兩種模型,一種基于特征去做ranking,另一種就是帶attention的神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)模型主要基于Hermann的模型并做了一些改進(jìn),最主要的一個(gè)改進(jìn)是在計(jì)算question embedding和passage embedding的相關(guān)度,即attention值的時(shí)候,用bilinear?term代替了tanh層,結(jié)果表明,用bilinear?term能夠有效地提升模型效果,第二個(gè)改進(jìn)主要是對(duì)模型的簡(jiǎn)化,原有模型在得到了帶attention的embedding o之后,用了一層非線性層對(duì)embedding o和question embedding進(jìn)行結(jié)合,再做預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明,去掉該非線性層對(duì)模型效果影響不大,還有一點(diǎn)改進(jìn)就是預(yù)測(cè)所用的詞表只使用在passage中出現(xiàn)過(guò)的entity。從結(jié)果上看,基于特征的模型已經(jīng)超過(guò)之前的大多數(shù)模型,而end-to-end神經(jīng)網(wǎng)絡(luò)更是將state-of-the-art提高了5%以上。

除了模型方面的改進(jìn),作者另一個(gè)重要的工作是對(duì)數(shù)據(jù)進(jìn)行了分析。作者抽取了100個(gè)樣例進(jìn)行具體分析,將100樣本按照問(wèn)題的類型劃分成了六類,并分析了模型解決每一類問(wèn)題的準(zhǔn)確率。數(shù)據(jù)集的構(gòu)成方式?jīng)Q定了該數(shù)據(jù)集有一定的噪聲,分析結(jié)果顯示,100個(gè)樣本中有8%的指代錯(cuò)誤,17%的樣本語(yǔ)義模糊不清或者人都難以回答,因此作者認(rèn)為模型達(dá)到72.4%的準(zhǔn)確率已經(jīng)基本達(dá)到了這個(gè)數(shù)據(jù)集的最佳結(jié)果。

深度學(xué)習(xí)需要有足夠的訓(xùn)練數(shù)據(jù)才能訓(xùn)練出有效的模型,之前的閱讀理解任務(wù)受限于數(shù)據(jù)量的大小,基本上都是用基于特征的方法來(lái)解決問(wèn)題。而隨著CNN/Daily?Mail數(shù)據(jù)集及Children?Book?Test?(Hill?et?al.,?2016)等數(shù)據(jù)集的出現(xiàn),解決了訓(xùn)練數(shù)據(jù)量的問(wèn)題,使得深度學(xué)習(xí)方法在閱讀理解任務(wù)上也取得了很好的效果。但是由于這些數(shù)據(jù)是通過(guò)一些方法自動(dòng)生成的,沒有經(jīng)過(guò)嚴(yán)格的人工標(biāo)注,因而存在一些噪聲,正如本文中對(duì)數(shù)據(jù)樣本的分析可以看到,這些噪聲一定程度上限制了模型的效果,因而對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行校正和修改,對(duì)提升模型效果有一定的幫助。閱讀理解任務(wù)有難易之分,目前機(jī)器對(duì)語(yǔ)義的理解能力還不夠,推理、演繹的能力不足,要想真正達(dá)到理解語(yǔ)義的程度,我想不僅需要對(duì)數(shù)據(jù)集有一定的要求,對(duì)模型的改進(jìn)也是必不可少的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容