Abstract(摘要)
??在本文中,我們?yōu)樾蛄袠?biāo)注任務(wù)提出了一系列基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (LSTM)的模型。這些模型包括 LSTM 網(wǎng)絡(luò),BI-LSTM 網(wǎng)絡(luò),帶有條件隨機(jī)場(chǎng)(CRF)層的 LSTM 網(wǎng)絡(luò)(LSTM-CRF),以及帶有 CRF 層的 BI-LSTM 網(wǎng)絡(luò)(BI-LSTM-CRF)。我們第一次將 BI-LSTM-CRF 模型應(yīng)用在 NLP 序列標(biāo)注的基準(zhǔn)數(shù)據(jù)集上。我們證明, 基于雙向 LSTM 組件, BI-LSTM-CRF 模型可以有效地利用過(guò)去和未來(lái)的輸入特征。借助 CRF 層, 它還可以使用句子級(jí)別的標(biāo)記信息。BI-LSTM-CRF 模型在POS(詞性標(biāo)注),chunking(語(yǔ)義組塊標(biāo)注)和 NER(命名實(shí)體識(shí)別)數(shù)據(jù)集上產(chǎn)生了令人驚奇的精確度。另外,BI-LSTM-CRF模型是一個(gè)健壯的,并且對(duì)詞嵌入具有更少依賴的模型。
1. 簡(jiǎn)介
??序列標(biāo)注任務(wù)包括POS(詞性標(biāo)注),chunking(語(yǔ)義組塊標(biāo)注)和NER(命名實(shí)體識(shí)別),都是自然語(yǔ)言處理類別的任務(wù)。已經(jīng)被研究者關(guān)注了數(shù)十年。這些輸出的標(biāo)簽?zāi)軌驊?yīng)用于下游的應(yīng)用。例如, 可以使用在用戶搜索查詢上訓(xùn)練過(guò)的命名實(shí)體識(shí)別器來(lái)標(biāo)識(shí)哪些文本范圍是產(chǎn)品, 從而觸發(fā)某些產(chǎn)品廣告。另一個(gè)例子是, 搜索引擎可以使用此類標(biāo)簽信息來(lái)查找相關(guān)網(wǎng)頁(yè)。
??絕大多數(shù)現(xiàn)有的序列標(biāo)注模型都是線性統(tǒng)計(jì)模型,包括隱含馬爾科夫模型(HMM),最大熵馬爾科夫模型(MEMMs),以及條件隨機(jī)場(chǎng)模型(CRF)。最近提出的基于卷積網(wǎng)絡(luò)的模型也被用來(lái)解決序列標(biāo)注問(wèn)題。我們指出,像Conv-CRF這樣,將卷積網(wǎng)絡(luò)和CRF組合在一起的模型,在序列標(biāo)注的任務(wù)上取得了比較好的效果。在語(yǔ)音理解社區(qū),最近提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)的模型。其他相關(guān)的工作包括為語(yǔ)音識(shí)別提出了雙向循環(huán)網(wǎng)絡(luò)模型。
??在這篇文章中,我們?yōu)樾蛄袠?biāo)注任務(wù)提出了一系列基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (LSTM)_的模型。這些模型包括 LSTM 網(wǎng)絡(luò),BI-LSTM 網(wǎng)絡(luò),帶有條件隨機(jī)場(chǎng)(CRF)層的 LSTM 網(wǎng)絡(luò)(LSTM-CRF),以及帶有 CRF 層的 BI-LSTM 網(wǎng)絡(luò)(BI-LSTM-CRF)。我們的貢獻(xiàn)如下:
- 我們系統(tǒng)地比較了上述模型在 NLP 標(biāo)記數(shù)據(jù)集上的性能;
- 我們第一次將 BI-LSTM-CRF 模型應(yīng)用在 NLP 序列標(biāo)注的基準(zhǔn)數(shù)據(jù)集上。我們證明, 基于雙向 LSTM 組件, BI-LSTM-CRF 模型可以有效地利用過(guò)去和未來(lái)的輸入特征。借助 CRF 層, 它還可以使用句子級(jí)別的標(biāo)記信息。BI-LSTM-CRF 模型在 POS(詞性標(biāo)注),chunking(語(yǔ)義組塊標(biāo)注)和 NER(命名實(shí)體識(shí)別)數(shù)據(jù)集上產(chǎn)生了令人驚奇的精確度。
- 我們證明了 BI-LSTM-CRF 模型是一個(gè)健壯的,并且對(duì)詞嵌入具有更少依賴的模型。他可以在不依賴詞嵌入的前提下產(chǎn)生精確的標(biāo)記性能。
??本文剩余的內(nèi)容是這樣組織的。第二節(jié)描述本文中使用的序列標(biāo)注模型。第三節(jié)展示訓(xùn)練過(guò)程。第四節(jié)報(bào)告實(shí)驗(yàn)結(jié)果。第五節(jié)討論相關(guān)的研究。最后在第六節(jié)刻畫結(jié)論。
2. 模型
??在這一節(jié),我們描述文本使用的模型:LSTM、BI-LSTM、CRF、LSTM-CRF 以及 BI-LSTM-CRF。
2.1 LSTM網(wǎng)絡(luò)
??循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在多種任務(wù)包括語(yǔ)言模型和語(yǔ)音識(shí)別中取得了很有前景的效果。RNN 維護(hù)了關(guān)于歷史信息的記憶,能夠使模型通過(guò)長(zhǎng)距離的特征來(lái)預(yù)測(cè)當(dāng)前的輸出。
??圖1展示了RNN的結(jié)構(gòu),由輸入層 x,隱藏層 h 以及輸出層 y 組成。在命名實(shí)體標(biāo)注的上下文中,x 表示輸入特征而 y 表示標(biāo)簽。圖1展示的命名實(shí)體識(shí)別系統(tǒng)中,每一個(gè)單詞都標(biāo)注為其他(O)或者四種實(shí)體類型(人名 - PER,地名 - LOC,組織機(jī)構(gòu) - ORG,雜項(xiàng) - MISC)中的一個(gè)。句子 EU rejects German call to boycott British lamb. 被標(biāo)注為B-ORG,O,B-MISC,O,O,O,B-MISC,O,O,。其中前綴 B- 和 I- 表示每一個(gè)實(shí)體的開(kāi)始和中間的位置。
??一個(gè)輸入層表示時(shí)刻 t 的特征。可能是基于獨(dú)熱編碼的詞特征,密集的特征向量或者稀疏向量。輸入層的維度與應(yīng)當(dāng)與特征的大小相等。一個(gè)輸出層表示在時(shí)刻 t ,標(biāo)簽取值的概率分布。輸出層的維度與標(biāo)簽數(shù)量大小相等。與前饋神經(jīng)網(wǎng)絡(luò)相比,RNN引入了上個(gè)隱藏狀態(tài)與當(dāng)前隱藏狀態(tài)的連接(因而產(chǎn)生了循環(huán)層的權(quán)重參數(shù))。這種循環(huán)層是設(shè)計(jì)用來(lái)保存歷史信息的。隱藏層和輸出層的值是通過(guò)下面的方式進(jìn)行計(jì)算的:

U,W 以及 V 就是在訓(xùn)練時(shí)刻被計(jì)算的連接權(quán)重,并且 f(z) 和 g(z) 是 sigmoid 和 softmax 激活函數(shù):


??在本文中,我們應(yīng)用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory)進(jìn)行序列標(biāo)注。LSTM 網(wǎng)絡(luò)和 RNNs 一樣,除了隱藏層的更新模塊被專門構(gòu)建的記憶細(xì)胞所取代。其結(jié)果就是,LSTM能夠更好的發(fā)現(xiàn)和探索數(shù)據(jù)中長(zhǎng)范圍的依賴信息。圖2展示了一個(gè)LSTM記憶細(xì)胞(cell)。

LSTM的記憶細(xì)胞是通過(guò)下面的公式實(shí)現(xiàn)的:

其中 σ 是邏輯 sigmoid 函數(shù),以及i,f, o 和 c 分別是輸入門,遺忘門,輸出門和細(xì)胞向量,所有這些都與隱藏向量 h 的大小相同。權(quán)重矩陣下標(biāo)的含義與名稱是等價(jià)的。舉個(gè)例子,是隱藏 - 輸入門矩陣,
是輸入 - 輸出門矩陣。從細(xì)胞(cell)到門(gate)向量的權(quán)值矩陣是對(duì)角矩陣,因此,每一個(gè)門向量中的元素 m 只接受來(lái)自于細(xì)胞向量元素m 的輸入。

2.2 雙向 LSTM 網(wǎng)絡(luò)
??在序列標(biāo)注任務(wù)中,我們需要在給定時(shí)間訪問(wèn)過(guò)去或未來(lái)的輸入特征,因此我們可以利用雙向 LSTM 網(wǎng)絡(luò)(圖4)。這樣做,我們能夠在指定的時(shí)間范圍內(nèi)有效地使用過(guò)去的特征(通過(guò)前向狀態(tài))和未來(lái)的特征(通過(guò)后向的狀態(tài))。我們使用通過(guò)時(shí)間的反向傳播(BPTT)來(lái)訓(xùn)練雙向LSTM網(wǎng)絡(luò)。隨著時(shí)間推移,在展開(kāi)的網(wǎng)絡(luò)上進(jìn)行的前向和后向傳遞同常規(guī)網(wǎng)絡(luò)中的前向和后向傳遞方式類似,除了我們需要對(duì)所有的時(shí)間步驟展開(kāi)隱藏狀態(tài)。我們還需要在數(shù)據(jù)點(diǎn)的開(kāi)始和結(jié)束時(shí)進(jìn)行特殊的處理。在我們的實(shí)現(xiàn)中,我們對(duì)整個(gè)句子進(jìn)行前向掃描和后向掃描的時(shí)候僅僅需要在句子的開(kāi)頭將隱藏狀態(tài)重置為0。我們做了批量的實(shí)現(xiàn),這使得多個(gè)句子可以同時(shí)被處理。

2.3 CRF網(wǎng)絡(luò)
??有兩種方式可以在預(yù)測(cè)當(dāng)前標(biāo)簽的時(shí)候使用鄰居的標(biāo)簽信息。第一種就是在每一個(gè)時(shí)間步都預(yù)測(cè)標(biāo)簽的分布然后使用 beam-like 編碼方式來(lái)發(fā)現(xiàn)最優(yōu)的標(biāo)簽序列。最大熵分類器和最大熵馬爾科夫模型(MEMMs)都屬于這種類別。第二種就是把關(guān)注點(diǎn)放在句子級(jí)別上,而不是個(gè)別位置,從而導(dǎo)致了條件隨機(jī)場(chǎng)(CRF)模型的出現(xiàn)(圖5)。注意,CRF 的輸入和輸出是直接相連的,這與 LSTM 和 BI-LSTM 網(wǎng)絡(luò)剛好相反,是通過(guò)記憶細(xì)胞和循環(huán)組件連接在一起的。
??一般情況下,CRF模型能夠產(chǎn)生更高的標(biāo)簽精度。有趣的是,這兩種使用標(biāo)簽信息方式之間的關(guān)系與兩種使用輸入特征的方式的關(guān)系類似(可以看看前文中的LSTM網(wǎng)絡(luò)和BI-LSTM網(wǎng)絡(luò)),并且本文的結(jié)果證明了BI-LSTM比LSTM要優(yōu)越。

2.4 LSTM-CRF 網(wǎng)絡(luò)
??我們將LSTM網(wǎng)絡(luò)和CRF網(wǎng)絡(luò)整合成為L(zhǎng)STM-CRF模型,如圖6所示。通過(guò)LSTM層,這個(gè)模型可以有效的利用過(guò)去的輸入特征,通過(guò)CRF層,模型可以有效的利用句子級(jí)的標(biāo)簽信息。CRF層由連接連續(xù)輸出層的線條表示。CRF層具有一個(gè)狀態(tài)轉(zhuǎn)移矩陣作為參數(shù)。利用這樣的一個(gè)層,我們可以有效地利用過(guò)去和未來(lái)的標(biāo)簽來(lái)預(yù)測(cè)當(dāng)前的標(biāo)簽,這類似于雙向LSTM網(wǎng)絡(luò)能夠利用過(guò)去和未來(lái)的輸入特征。我們將分?jǐn)?shù)矩陣看做是網(wǎng)絡(luò)的輸出。我們丟棄輸入
來(lái)簡(jiǎn)化計(jì)數(shù)。矩陣攜帶θ的元素
是網(wǎng)絡(luò)輸出的關(guān)于句子
中第 t 個(gè)詞的第 i 個(gè)標(biāo)簽的分?jǐn)?shù)。我們引入轉(zhuǎn)換分?jǐn)?shù)
來(lái)模擬一對(duì)連續(xù)的時(shí)間步長(zhǎng)從第 i 個(gè)狀態(tài)到第 j 個(gè)狀態(tài)的轉(zhuǎn)換。注意,這個(gè)轉(zhuǎn)移矩陣與位置無(wú)關(guān)。現(xiàn)在我們來(lái)看看網(wǎng)絡(luò)的新參數(shù)
。然后,通過(guò)轉(zhuǎn)移分?jǐn)?shù)和網(wǎng)絡(luò)分?jǐn)?shù)的總和給出句子
的分?jǐn)?shù)以及標(biāo)簽
的路徑:

動(dòng)態(tài)編程可以有效地用于計(jì)算和最佳標(biāo)簽的推理序列。

2.5 BI-LSTM-CRF網(wǎng)絡(luò)
??與LSTM-CRF網(wǎng)絡(luò)類似,我們將一個(gè)雙向LSTM網(wǎng)絡(luò)和一個(gè)CRF網(wǎng)絡(luò)合并成為一個(gè)BI-LSTM-CRF網(wǎng)絡(luò)(圖7)。除像LSTM-CRF模型那樣能夠利用過(guò)去的輸入特征和句子級(jí)別的標(biāo)簽信息之外,BI-LSTM-CRF模型還能夠利用未來(lái)的輸入特征,這項(xiàng)額外的功能可以提高標(biāo)注的準(zhǔn)確性,正如我們將在實(shí)驗(yàn)中展示的那樣。

3 訓(xùn)練過(guò)程
??本文使用的所有模型都有一個(gè)通用的SGD前向和后向的訓(xùn)練程序。我們選擇最復(fù)雜的模型BI-LSTM-CRF,來(lái)展示算法1中描述的訓(xùn)練算法。在每一次迭代中,我們將整個(gè)訓(xùn)練數(shù)據(jù)分成很多批次,每一次處理一批。每一個(gè)批次包含一個(gè)句子列表,列表的大小由參數(shù) batch size 決定。在我們的實(shí)驗(yàn)中,每一個(gè)批次的大小為100([ batch size ] = 100),這意味著每一次處理的句子列表的大小不會(huì)超出100。對(duì)于每個(gè)批次,我們首先運(yùn)行BI-LSTM-CRF模型進(jìn)行前向傳遞,其包括LSTM的前向狀態(tài)和后向狀態(tài)的前向傳遞。我們會(huì)獲取所有位置的所有標(biāo)簽的輸出分?jǐn)?shù)作為結(jié)果。然后,我們運(yùn)行CRF層的前向和后向傳遞,以計(jì)算網(wǎng)絡(luò)輸出和狀態(tài)轉(zhuǎn)換邊緣的梯度。做完這些,我們將錯(cuò)誤從輸出反向傳播到輸入,這包括對(duì)LSTM前向和后向狀態(tài)的反向傳遞。最后,我們更新網(wǎng)絡(luò)參數(shù),這包括轉(zhuǎn)移矩陣 和原初的BI-LSTM的參數(shù)
。
算法1:BI-LSTM-CRF模型訓(xùn)練過(guò)程
1: for each epoch do
2: for each batch do
3: 1) bidirectional LSTM-CRF model forward pass:
4: forward pass for forward state LSTM
5: forward pass for backward state LSTM
6: 2) CRF layer forward and backward pass
7: 3) bidirectional LSTM-CRF model backward pass:
8: backward pass for forward state LSTM
9: backward pass for backward state LSTM
10: 4) update parameters
11: end for
12: end for
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)
??我們?cè)谌齻€(gè)NLP序列標(biāo)注任務(wù):Penn TreeBank(PTB,賓州樹(shù)庫(kù))詞性標(biāo)注,CoNLL 2000 語(yǔ)義組塊識(shí)別,以及CoNLL 2003 命名實(shí)體標(biāo)注上測(cè)試了LSTM、BI-LSTM、CRF、LSTM-CRF以及BI-LSTM-CRF模型。表格1展示了句子、詞以及訓(xùn)練標(biāo)簽的數(shù)量,以及驗(yàn)證和測(cè)試集。
??序列標(biāo)注為每一個(gè)詞分配一個(gè)標(biāo)簽,這個(gè)標(biāo)簽標(biāo)識(shí)詞的句法角色。在語(yǔ)義組塊中,使用短語(yǔ)類型來(lái)標(biāo)注每一個(gè)詞。舉個(gè)例子:標(biāo)簽 B-NP 表示一個(gè)詞開(kāi)始了一個(gè)名詞短語(yǔ)。在NER(命名實(shí)體識(shí)別)任務(wù)中,每一個(gè)詞使用其他的實(shí)體類型或者四種實(shí)體類型中的一個(gè):Person,Location,Organization或者M(jìn)iscellaneous來(lái)標(biāo)注。對(duì)于語(yǔ)義組塊識(shí)別和命名實(shí)體實(shí)體識(shí)別任務(wù),我們使用 BIO2 規(guī)范來(lái)標(biāo)注訓(xùn)練數(shù)據(jù)。
4.2 特征
??我們?yōu)槿齻€(gè)數(shù)據(jù)集抽取相同類型的特征。這些特征可以分組為拼寫特征和上下文特征。我們?yōu)橹付ǖ腜OS、chunking、NER數(shù)據(jù)集分別抽取了401K,76K,341K的特征數(shù)據(jù)。這些特征類似于使用 Stanford NER 工具抽取的特征。注意除了使用Senna嵌入之外,對(duì)于POS和chunking任務(wù)我們并未使用額外的數(shù)據(jù)。對(duì)于NER任務(wù),我們報(bào)告使用拼寫和上下文特征的性能,同時(shí)我們也增量報(bào)告了使用Senna嵌入和Gazetteer特征的結(jié)果。
4.2.1 拼寫特征
??除了單詞的小寫特征外,我們還未一個(gè)給定的單詞提取以下特征。
- 是否首字母大寫
- 是否所有字母都是大寫
- 是否所有字母都是小寫
- 是否有非首字母的大寫字母
- 是否是由字母和數(shù)字混合的
- 是否由標(biāo)點(diǎn)符號(hào)
- 字母前綴和后綴 (窗口大小為2到 5)
- 是否由('s)結(jié)尾
- 只包含一個(gè)字母,例如: I. B. M. 對(duì)IBM
- 不只包含字母,例如:A. T. &T. 對(duì)..&
- 單詞模式特征,用大寫字母、小寫字母和數(shù)字分別映射到 "A"、"a" 和 "0",例如:D56y-3 到 A00a-0。
- 單詞模式摘要特征,類似于詞模式特征,但是刪除了連續(xù)相同的字符。
4.2.2 上下文特征
??對(duì)于三個(gè)數(shù)據(jù)集中的詞特征,我們使用一元和二元語(yǔ)法特征。對(duì)于CoNLL2000數(shù)據(jù)集在POS任務(wù),以及CoNLL2003數(shù)據(jù)集在POS和CHUNK任務(wù)上的特征,我們使用一元,二元和三元語(yǔ)法特征。
4.2.3 詞嵌入
??詞嵌入在提升序列標(biāo)注性能上扮演了一個(gè)至關(guān)重要的角色。我們下載了詞典長(zhǎng)度為130K,維度為50維的詞嵌入模型,在嵌入層,我們只是簡(jiǎn)單的將獨(dú)熱編碼的詞表示替換成為50維的詞向量。
4.2.4 特征連接技巧
??我們處理拼寫特征和上下文特征的方式和處理詞特征的方法一樣。也就是說(shuō),網(wǎng)絡(luò)的輸入同時(shí)包括詞,拼寫和上下文特征。然而,我們發(fā)現(xiàn)從拼寫和上下文特征到輸出的直接連接可以加速訓(xùn)練,并且會(huì)導(dǎo)致非常相似的標(biāo)注精度。圖8展示了特征與輸出直接相連的網(wǎng)絡(luò)。我們將報(bào)告所有使用了這種連接方式的精確度。我們注意到這種特征應(yīng)用方式與 Mikolov et al. 2011 中使用的最大熵特征有相同的思想。不同之處在于 Mikolov et al. 2011 中采用了特征哈希技術(shù),因此會(huì)發(fā)生特征碰撞。因?yàn)樾蛄袠?biāo)注數(shù)據(jù)集中輸出的標(biāo)簽數(shù)遠(yuǎn)遠(yuǎn)小于語(yǔ)言模型(通常有數(shù)十萬(wàn)個(gè)),所以我們可以保證在特征和輸出之間采用全連接的同時(shí)避免潛在的特征碰撞。


4.3 結(jié)果
??我們針對(duì)每一個(gè)數(shù)據(jù)集訓(xùn)練LSTM,BI-LSTM,CRF,LSTM-CRF以及BI-LSTM-CRF模型。我們使用兩種方式來(lái)初始化詞嵌入:Random 和 Senna。在第一類中我們隨機(jī)地初始化詞嵌入向量,第二類中,我們使用Senna詞嵌入。對(duì)于每一種類別,我們使用相同的特征集,因此不同的結(jié)果完全是由于不同的網(wǎng)絡(luò)產(chǎn)生的。我們使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型,使用驗(yàn)證數(shù)據(jù)集來(lái)監(jiān)控性能。如果分塊的數(shù)據(jù)沒(méi)有驗(yàn)證數(shù)據(jù),我們使用部分訓(xùn)練數(shù)據(jù)來(lái)驗(yàn)證模型。
??我們使用0.1的學(xué)習(xí)率來(lái)訓(xùn)練模型。我們?cè)O(shè)置隱藏層的大小為300,同時(shí)發(fā)現(xiàn)模型的性能對(duì)于隱藏層大小并不敏感。這三種任務(wù)的訓(xùn)練需要不到10次迭代就能夠收斂,一般需要不到幾個(gè)小時(shí)。我們?cè)诒?中報(bào)告了模型在測(cè)試數(shù)據(jù)集上的性能,同時(shí)我們也列出了論文(Collobert et al., 2011)中的最好結(jié)果,表示為Conv-CRF。POS任務(wù)通過(guò)計(jì)算每個(gè)字的準(zhǔn)確性進(jìn)行評(píng)估,而 chunk 和 NER 任務(wù)則通過(guò)計(jì)算組塊上的 F1 分?jǐn)?shù)來(lái)評(píng)估。

4.3.1 與Conv-CRF網(wǎng)絡(luò)的比較
??我們有三個(gè)基準(zhǔn)模型:LSTM,BI-LSTM 以及 CRF。LSTM是這三個(gè)數(shù)據(jù)集上最弱的基準(zhǔn)。BI-LSTM 在 POS 和 chunking 數(shù)據(jù)集上的性能接近CRF,但是在NER數(shù)據(jù)集上的性能不如CRF。CRF模型在我們的實(shí)驗(yàn)中是最強(qiáng)的基準(zhǔn)。對(duì)于隨機(jī)類別, CRF 模型在所有三個(gè)數(shù)據(jù)集中的性能優(yōu)于 Conv-CRF 模型。對(duì)于Senna類別,CRF 模型在 POS 任務(wù)上的表現(xiàn)優(yōu)于 Conv-CRF,但在 chunking 和 NER 任務(wù)上的表現(xiàn)不如 Conv-CRF。LSTM-CRF 模型的性能在所有數(shù)據(jù)集上優(yōu)于 CRF 模型。這表明了正向 LSTM 組件在建模序列數(shù)據(jù)中的有效性。BI-LSTM-CRF 模型進(jìn)一步改進(jìn)了 LSTM-CRF 模型,BI-LSTM-CRF 在除了隨機(jī)類型的 POS 任務(wù)(該任務(wù)還是 LSTM-CRF 性能最好)之外的其他所有任務(wù)上取得了最好的標(biāo)注性能。在 CoNLL 200 的 Senna 類別中,括號(hào)里面的數(shù)字是由 Gazetteer 特征生成。
??有趣的是,我們最好的模型 BI-LSTM-CRF 對(duì) Senna 詞嵌入的依賴性比 Conv-CRF 模型要小。例如,BI-LSTM-CRF 在隨機(jī)類型和Senna類型之間的標(biāo)記差異分別是 POS:0.12%,chunking:0.33%,NER:4.57% 。相反,Conv-CRF模型在很大程度上依賴于Senna嵌入以獲得良好的標(biāo)記準(zhǔn)確性,標(biāo)記差異分別為 POS:0.92%,chunking:3.99%和NER:7.20%。
4.3.2 模型健壯性
??為了估計(jì)模型在工程特征(拼寫和上下文特征)方面的穩(wěn)健性,我們僅僅使用詞特征訓(xùn)練 LSTM,BI-LSTM,CRF,LSTM-CRF和 BI-LSTM-CRF 模型(移除了拼寫和上下文特征)。表3顯示了使用Senna字嵌入的建議模型在 POS,chunking 和 NER 數(shù)據(jù)集上的標(biāo)記性能。其中括號(hào)中的數(shù)字表示與使用了拼寫和上下文特征的相同模型相比,下降的性能。CRF模型在移除了拼寫和上下文特征的情況下發(fā)生了顯著的性能下降。這表明了CRF模型嚴(yán)重依賴特征工程的事實(shí)。換句話說(shuō),基于LSTM的模型,尤其是 BI-LSTM 和 BI-LSMT-CRF模型是更加健壯的,并且當(dāng)我們移除工程化的特征后,受到的影響也最低。對(duì)于所有三個(gè)任務(wù),BI-LSTM-CRF模型擁有最高的標(biāo)注精度。例如,BI-LSTM-CRF 在 CoNLL 2000 上的 chunking 任務(wù)取得了94.40的F1分?jǐn)?shù),比起使用了拼寫和上下文特征的模型,只降低了(0.06)。

4.3.3 與已存在系統(tǒng)的比較
??對(duì)于 POS 數(shù)據(jù)集,我們?cè)谑褂没虿皇褂妙~外數(shù)據(jù)資源的情況下實(shí)現(xiàn)了最先進(jìn)的標(biāo)記準(zhǔn)確性。POS 數(shù)據(jù)集已經(jīng)過(guò)廣泛測(cè)試,過(guò)去的改進(jìn)可以在表4中看到。我們的測(cè)試準(zhǔn)確率為97.55%,在置信水平為95%時(shí)明顯優(yōu)于其他測(cè)試。此外,我們的BI-LSTM-CRF模型在無(wú)需使用Senna詞嵌入的情況下達(dá)到了良好的精度。

??所有 chunking 系統(tǒng)的性能如表5所示。Kudo 等人贏得了 CoNLL 2000 的挑戰(zhàn)賽,F(xiàn)1得分為93.48%。 他們的方法是基于SVM的分類器。他們后來(lái)將結(jié)果提高到93.91%。最近的工作包括基于 CRF 的模型(Sha 和 Pereira ,2003年;Mcdonald 等人,2005年;Sun 等,2008年)。更近期的是(Shen 和 Sarkar,2005年),其使用的投票分類器方案獲得了95.23%的準(zhǔn)確度,其中每個(gè)分類器在不同的標(biāo)簽表示(IOB,IOE等)上訓(xùn)練。 除了(Shen 和 Sarkar,2005年)之外,我們的模型優(yōu)于所有報(bào)告的系統(tǒng)。
??NER的所有系統(tǒng)的性能如表6所示。(Florian 等 ,2003年)在 NER CoNLL 2003 挑戰(zhàn)中成為最佳系統(tǒng),F(xiàn)1得分為88.76%。他們使用了各種機(jī)器學(xué)習(xí)分類器的組合。 排名第二的是(Chieu,2003年),F(xiàn)
1得分是88.31%,也是在外部地名錄的幫助下。在這之后,(Ando 和 Zhang,2005年)以半監(jiān)督方式達(dá)到了89.31%的F1值。(Passos 等,2014)報(bào)告了90.90%的最佳F1得分,它采用了一種新的形式來(lái)學(xué)習(xí)單詞嵌入,這種方式可以利用相關(guān)詞典中的信息來(lái)改進(jìn)表示。我們的模型可以通過(guò) Senna 嵌入和地名詞典功能獲得90.10的最佳F1分?jǐn)?shù)。它的F1得分低于(Passos 等,2014),這可能是由于采用了不同的詞嵌入這一事實(shí)。使用相同的Senna嵌入,BI-LSTM-CRF略微優(yōu)于Conv-CRF(90.10%對(duì)比89.59%)。然而,如果使用隨機(jī)嵌入,BI-LSTM-CRF明顯優(yōu)于Conv-CRF(84.26%對(duì)81.47%)。


5. 討論(Discussions)
??我們的工作與(Collobert等,2011年)的工作接近,都是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行序列標(biāo)注。他們的工作使用的是卷積神經(jīng)網(wǎng)絡(luò),而我們的工作是使用雙向LSTM網(wǎng)絡(luò)。
??我們的工作也接近(Hammerton,2003年;Yao 等,2014年)的工作,因?yàn)樗麄兌际褂?LSTM 網(wǎng)絡(luò)進(jìn)行序列標(biāo)記。(Hammerton,2003年)的表現(xiàn)并不令人印象深刻。(Yao 等,2014年)的工作沒(méi)有使用雙向 LSTM 和 CRF 層,因此標(biāo)注的準(zhǔn)確性可能會(huì)受到影響。
??最后,我們的工作與(Wang 和 Manning,2013年)的工作有關(guān),其結(jié)論是非線性體系結(jié)構(gòu)在高維離散特征空間中沒(méi)有任何好處。 我們展示了使用 BI-LSTM-CRF 模型,我們始終獲得比具有相同特征集的單個(gè)CRF模型更好的標(biāo)記精度。
6. 結(jié)論(Conclusions)
??在這篇論文中,我們有計(jì)劃的比較了基于LSTM網(wǎng)絡(luò)的模型在序列標(biāo)注上的性能。我們第一個(gè)提出將BI-LSTM-CRF模型應(yīng)用于NLP基準(zhǔn)序列標(biāo)注數(shù)據(jù)。 我們的模型可以在POS,chunking 和 NER 數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近)的精度。此外,與(Collobert 等,2011年)中的觀察相比,我們的模型是健壯的并且對(duì)字嵌入的依賴性較小。 它可以在不使用詞嵌入的前提下實(shí)現(xiàn)準(zhǔn)確的序列標(biāo)注。