Pytorch學(xué)習(xí)記錄-GEC語法糾錯03
五月第一周要結(jié)束了,接下來的三個月主要是文獻(xiàn)閱讀,準(zhǔn)備8、9月的開題報告,技術(shù)類的文獻(xiàn)集中在GEC和Text maching的應(yīng)用方面,讀完之后找demo復(fù)現(xiàn),然后應(yīng)用。
理論方面的論文也都是英文的
2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task
2017年國際自然語言處理聯(lián)合會議(IJCNLP 2017)中文語法糾錯第一名。在這里,使用的是Chinese Grammatical Error Diagnosis(CGED中文語法錯誤診斷)
2.1 摘要
- 任務(wù):處理四中語法錯誤(多詞(R)、少詞(M)、錯詞(S)、詞序錯誤(W))
- 處理方式:我們將任務(wù)視為序列標(biāo)記問題,并設(shè)計一些手工技術(shù)來解決
- 模型結(jié)構(gòu):基于LSTM-CRF模型和3個合成策略
2.2 介紹
中文的特點(diǎn)(古老和多樣化),既沒有單數(shù)/復(fù)數(shù)變化,也沒有動詞的緊張變化,具有更靈活的表達(dá)但松散的結(jié)構(gòu)語法,使用更短的句子但很少有短語。它也有更多的重復(fù),而在英文中這種重復(fù)會被省略。
中-英文GED之間的相似之處:固定的詞匯搭配,可以從英語NLP研究中獲得經(jīng)驗。
2.3 CGED
- NLPTea CGED開始于2014年,由CFL提供訓(xùn)練數(shù)據(jù)。
- 數(shù)據(jù)包括四類錯誤,多詞(R)、少詞(M)、錯詞(S)、詞序錯誤(W)(注意,這個和上一篇的詞匯錯誤有一些不同,上一篇五個錯誤是從語法規(guī)則上來討論,這里是對詞的討論)。
- 在提供測試數(shù)據(jù)集的情況下,需要開發(fā)CGED來檢測:(1)句子是否正確; (2)句子包含哪些錯誤; (3)確切的錯誤位置。

2.4 相關(guān)工作
在CoNLL2013和2014年的shared Task中獲得了很多關(guān)于英文GED的成果。
- 手工制作規(guī)則
- 統(tǒng)計模型
- 翻譯模型
- GED的搭配問題
- LSTM在這類任務(wù)中是有效的
CGED可以借鑒英文的成果,2012年一個基于條件隨機(jī)場(CRF)分類器用于詞序錯誤查找;2014年基于規(guī)則的診斷系統(tǒng);NLPTea在2014-2016年CGED,哈工大基于CRF+BiLSTM模型,朝陽科技大學(xué)基于CRF模型的POS語言特征
2.5 方法
2.5.1 模型
將CGED看成是一個序列標(biāo)記問題,HIT之前使用過基于CRF和LSTM的模型解決序列標(biāo)記問題,在CRF的幫助下,LSTM模型表現(xiàn)更好。因此,這篇論文使用的也是雙向LSTM作為RNN單元對輸入句子進(jìn)行建模。

2.5.2 特征工程
由于缺乏訓(xùn)練數(shù)據(jù),任務(wù)嚴(yán)重依賴先驗知識:POS特征。即是說特征工程對于這類任務(wù)十分重要,研究者列出了他們使用的特征。

- 字嵌入向量 ,隨機(jī)初始化得到的
- 二元字向量,Bigram是這項任務(wù)中的一個信息性和區(qū)別性的特征,它讓模型很容易學(xué)習(xí)到相鄰字符之間的搭配程度
- 詞性標(biāo)注向量 ,由需要標(biāo)注的這個字所在的詞的詞性決定 ,同時會標(biāo)注是這個詞的開始B,還是內(nèi)部I
- 詞性的得分,從大的訓(xùn)練數(shù)據(jù)中統(tǒng)計得到 。因為有的詞既可以做名詞又可以做動詞,對于做動詞或者名詞,其中的你某個可能比較常見,得分就比較高。
- 相鄰詞匯搭配,在訓(xùn)練數(shù)據(jù)中,發(fā)現(xiàn)相鄰單詞之間發(fā)生了錯誤的搭配,基于這一點(diǎn)計算PMI信息得分
研究者將PMI得分作為LSTM-CRF模型的輸入特征嵌入低維度向量,在字符級解決任務(wù)后,研究者還將位置指標(biāo)添加到離散的PMI得分中。 - 依存特征,相鄰詞匯的PMI分?jǐn)?shù)能夠代表臨近次會,而搭配關(guān)系并不僅僅局限在臨近詞匯,這時就需要依存特征。
2.5.3 模型集成
由于隨機(jī)初始化和隨機(jī)丟失的原因,模型的結(jié)果不是很理想,研究者使用了3種不同的集成方式來提高結(jié)果。
- 第一個是簡單整合所有的結(jié)果
- 第二個是對模型生成的錯誤結(jié)果進(jìn)行排序,最后20%的結(jié)果刪除。提高了P值但是仍然沒有超過的單個的模型
- 第三個是投票
在所有實(shí)驗中,使用了4組不同的參數(shù),并為每個參數(shù)組訓(xùn)練了2個模型,因此總共使用了8個模型。