引言：

這一篇論文的工作是在Zeng 2014基礎(chǔ)上的擴(kuò)展（Zeng那篇論文的解析http://www.itdecent.cn/p/f4a9c2fd733c），從Fully Supervised 到Distant Supervised。

這一篇論文使用的模型框架還是一個(gè)簡(jiǎn)簡(jiǎn)單單的CNN模型，主要有2點(diǎn)改進(jìn)：（1）在Zeng 2014的CNN模型基礎(chǔ)上，采用了Piece Wise CNN(PCNN)，改進(jìn)了原來(lái)的全局max pooling，做了局部的max pooling；（2）使用多實(shí)例學(xué)習(xí)Multi Instance Learning（MIL）解決遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)的大量噪聲數(shù)據(jù)的影響。

遠(yuǎn)程監(jiān)督：

全監(jiān)督方法都是在完全正確的標(biāo)注數(shù)據(jù)集上來(lái)做的，因此數(shù)據(jù)量很小。所以，為了能夠擴(kuò)充數(shù)據(jù)集，遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)集的方法應(yīng)運(yùn)而生。Distant Supervision可以自動(dòng)標(biāo)注訓(xùn)練樣本的原理很簡(jiǎn)單，它利用知識(shí)圖譜中的兩個(gè)entity以及這兩個(gè)entity對(duì)應(yīng)的relation，在大量文本中進(jìn)行回標(biāo)。如果某個(gè)句子中同時(shí)包含了這兩個(gè)entity，那么就假定這個(gè)句子中的這兩個(gè)實(shí)體描述了上述的relation，這樣就可以獲得大量的標(biāo)注數(shù)據(jù)了。

論文整體架構(gòu)：

模型整體架構(gòu)

模型整體架構(gòu)如上圖，和Zeng 2014模型一樣，輸入依然是兩個(gè)位置向量和word本身的詞向量拼接在一起作為輸入，后面接卷積操作。

PCNN：

原來(lái)的CNN是對(duì)整個(gè)句子做卷積，然后對(duì)卷積后的向量做max pooling，即全局max pooling；而本論文中，采取了局部max pooling，即把一個(gè)句子分為三部分，以兩個(gè)entity為邊界把句子分為三段，然后卷積之后對(duì)每一段取max pooling, 這樣便可以得到三個(gè)值，相比傳統(tǒng)的max-pooling 每個(gè)卷積核只能得到一個(gè)值，這樣可以更加充分有效的得到句子特征信息。

Multi Instance Learning：

上面引言中有提到遠(yuǎn)程監(jiān)督獲取大量標(biāo)注數(shù)據(jù)的方法，很明顯這種方法會(huì)產(chǎn)生大量的噪聲數(shù)據(jù)，因?yàn)橛械木渥涌赡懿⒉皇敲枋鲈撝衦elation的。

所以，為了緩解這種錯(cuò)誤標(biāo)注數(shù)據(jù)的影響，Multi Instance Learning（MIL）多實(shí)例學(xué)習(xí)出現(xiàn)了！它把描述同樣的2個(gè)實(shí)體的句子組成一個(gè)bag，之前是給每個(gè)句子都硬性分配一個(gè)relation（即知識(shí)圖譜中的relation），而現(xiàn)在是給這個(gè)bag標(biāo)注一個(gè)對(duì)應(yīng)的relation。MIL有一個(gè)At-Least-One 的假設(shè)：包含兩個(gè)entity的所有句子中即一個(gè)bag，至少有一個(gè)句子可以正確描述該bag的relation。

所以，模型在bag中選擇一個(gè)最大概率描述該bag標(biāo)注的relation的句子進(jìn)行模型的訓(xùn)練，bag中其他的數(shù)據(jù)都不參加訓(xùn)練，這樣，訓(xùn)練數(shù)據(jù)的標(biāo)注大部分便都是正確的了。通過(guò)參考代碼，這部分的做法主要是先把狀態(tài)調(diào)為model.eval()，然后把bag里的句子輸入模型中進(jìn)行預(yù)測(cè)，得到每個(gè)句子對(duì)應(yīng)每個(gè)預(yù)測(cè)關(guān)系的概率向量，因?yàn)槲覀兪侵纀ag的標(biāo)簽relation的，所以，找到bag中每個(gè)句子對(duì)應(yīng)該relation位置上的概率，通過(guò)比較，該位置上概率得分最高的便是我們需要選擇的句子。

模型實(shí)驗(yàn)結(jié)果及總結(jié)：

可以看到，模型的兩種改進(jìn)方法的確都有效果。

這篇文章在NYT + FreeBase 數(shù)據(jù)集上是比較好的效果了，它也是第一篇使用PCNN+Multi Instance Learning來(lái)處理Distant Supervision 的關(guān)系抽取。解決遠(yuǎn)程監(jiān)督噪聲數(shù)據(jù)的問(wèn)題也是后續(xù)很多論文中的主要改進(jìn)方向，例如對(duì)bag中的多實(shí)例做average、attention處理等，應(yīng)用強(qiáng)化學(xué)習(xí)的方法進(jìn)行遠(yuǎn)程監(jiān)督噪聲數(shù)據(jù)的濾除等等。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文解讀 Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks.

論文解讀 Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks.

引言：

遠(yuǎn)程監(jiān)督：

論文整體架構(gòu)：

PCNN：

Multi Instance Learning：

模型實(shí)驗(yàn)結(jié)果及總結(jié)：

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文解讀 Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks.

引言：

遠(yuǎn)程監(jiān)督：

論文整體架構(gòu)：

PCNN：

Multi Instance Learning：

模型實(shí)驗(yàn)結(jié)果及總結(jié)：

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av