女人久久久Www,宅男综合网,国产男人天堂av

Pytorch學(xué)習(xí)記錄-GEC語法糾錯03
五月第一周要結(jié)束了，接下來的三個月主要是文獻(xiàn)閱讀，準(zhǔn)備8、9月的開題報告，技術(shù)類的文獻(xiàn)集中在GEC和Text maching的應(yīng)用方面，讀完之后找demo復(fù)現(xiàn)，然后應(yīng)用。
理論方面的論文也都是英文的

2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

2017年國際自然語言處理聯(lián)合會議（IJCNLP 2017）中文語法糾錯第一名。在這里，使用的是Chinese Grammatical Error Diagnosis（CGED中文語法錯誤診斷）

2.1 摘要

任務(wù)：處理四中語法錯誤（多詞（R）、少詞（M）、錯詞（S）、詞序錯誤（W））
處理方式：我們將任務(wù)視為序列標(biāo)記問題，并設(shè)計一些手工技術(shù)來解決
模型結(jié)構(gòu)：基于LSTM-CRF模型和3個合成策略

2.2 介紹

中文的特點(diǎn)（古老和多樣化），既沒有單數(shù)/復(fù)數(shù)變化，也沒有動詞的緊張變化，具有更靈活的表達(dá)但松散的結(jié)構(gòu)語法，使用更短的句子但很少有短語。它也有更多的重復(fù)，而在英文中這種重復(fù)會被省略。
中-英文GED之間的相似之處：固定的詞匯搭配，可以從英語NLP研究中獲得經(jīng)驗。

2.3 CGED

NLPTea CGED開始于2014年，由CFL提供訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)包括四類錯誤，多詞（R）、少詞（M）、錯詞（S）、詞序錯誤（W）（注意，這個和上一篇的詞匯錯誤有一些不同，上一篇五個錯誤是從語法規(guī)則上來討論，這里是對詞的討論）。
在提供測試數(shù)據(jù)集的情況下，需要開發(fā)CGED來檢測：（1）句子是否正確; （2）句子包含哪些錯誤; （3）確切的錯誤位置。

image.png

2.4 相關(guān)工作

在CoNLL2013和2014年的shared Task中獲得了很多關(guān)于英文GED的成果。

手工制作規(guī)則
統(tǒng)計模型
翻譯模型
GED的搭配問題
LSTM在這類任務(wù)中是有效的
CGED可以借鑒英文的成果，2012年一個基于條件隨機(jī)場（CRF）分類器用于詞序錯誤查找；2014年基于規(guī)則的診斷系統(tǒng)；NLPTea在2014-2016年CGED，哈工大基于CRF+BiLSTM模型，朝陽科技大學(xué)基于CRF模型的POS語言特征

2.5 方法

2.5.1 模型

將CGED看成是一個序列標(biāo)記問題，HIT之前使用過基于CRF和LSTM的模型解決序列標(biāo)記問題，在CRF的幫助下，LSTM模型表現(xiàn)更好。因此，這篇論文使用的也是雙向LSTM作為RNN單元對輸入句子進(jìn)行建模。

image.png

2.5.2 特征工程

由于缺乏訓(xùn)練數(shù)據(jù)，任務(wù)嚴(yán)重依賴先驗知識：POS特征。即是說特征工程對于這類任務(wù)十分重要，研究者列出了他們使用的特征。

image.png

字嵌入向量，隨機(jī)初始化得到的
二元字向量，Bigram是這項任務(wù)中的一個信息性和區(qū)別性的特征，它讓模型很容易學(xué)習(xí)到相鄰字符之間的搭配程度
詞性標(biāo)注向量，由需要標(biāo)注的這個字所在的詞的詞性決定，同時會標(biāo)注是這個詞的開始B，還是內(nèi)部I
詞性的得分，從大的訓(xùn)練數(shù)據(jù)中統(tǒng)計得到。因為有的詞既可以做名詞又可以做動詞，對于做動詞或者名詞，其中的你某個可能比較常見，得分就比較高。
相鄰詞匯搭配，在訓(xùn)練數(shù)據(jù)中，發(fā)現(xiàn)相鄰單詞之間發(fā)生了錯誤的搭配，基于這一點(diǎn)計算PMI信息得分
$PMI(w1,w2)=\log(\frac{p(w1,w2)}{p(w1)*p(w2)} )$
研究者將PMI得分作為LSTM-CRF模型的輸入特征嵌入低維度向量，在字符級解決任務(wù)后，研究者還將位置指標(biāo)添加到離散的PMI得分中。
依存特征，相鄰詞匯的PMI分?jǐn)?shù)能夠代表臨近次會，而搭配關(guān)系并不僅僅局限在臨近詞匯，這時就需要依存特征。

2.5.3 模型集成

由于隨機(jī)初始化和隨機(jī)丟失的原因，模型的結(jié)果不是很理想，研究者使用了3種不同的集成方式來提高結(jié)果。

第一個是簡單整合所有的結(jié)果
第二個是對模型生成的錯誤結(jié)果進(jìn)行排序，最后20%的結(jié)果刪除。提高了P值但是仍然沒有超過的單個的模型
第三個是投票

在所有實(shí)驗中，使用了4組不同的參數(shù)，并為每個參數(shù)組訓(xùn)練了2個模型，因此總共使用了8個模型。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Pytorch學(xué)習(xí)記錄-基于CRF+BiLSTM的CGED

Pytorch學(xué)習(xí)記錄-基于CRF+BiLSTM的CGED

2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

2.1 摘要

2.2 介紹

2.3 CGED

2.4 相關(guān)工作

2.5 方法

2.5.1 模型

2.5.2 特征工程

2.5.3 模型集成

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Pytorch學(xué)習(xí)記錄-基于CRF+BiLSTM的CGED

2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task

2.1 摘要

2.2 介紹

2.3 CGED

2.4 相關(guān)工作

2.5 方法

2.5.1 模型

2.5.2 特征工程

2.5.3 模型集成

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av