日韩伦理一区二区三区,人妻一区2区三区,日韩午夜狠狠

Abstract（摘要）

??在本文中，我們?yōu)樾蛄袠?biāo)注任務(wù)提出了一系列基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (LSTM)的模型。這些模型包括 LSTM 網(wǎng)絡(luò)，BI-LSTM 網(wǎng)絡(luò)，帶有條件隨機(jī)場(chǎng)（CRF）層的 LSTM 網(wǎng)絡(luò)（LSTM-CRF），以及帶有 CRF 層的 BI-LSTM 網(wǎng)絡(luò)（BI-LSTM-CRF）。我們第一次將 BI-LSTM-CRF 模型應(yīng)用在 NLP 序列標(biāo)注的基準(zhǔn)數(shù)據(jù)集上。我們證明, 基于雙向 LSTM 組件, BI-LSTM-CRF 模型可以有效地利用過(guò)去和未來(lái)的輸入特征。借助 CRF 層, 它還可以使用句子級(jí)別的標(biāo)記信息。BI-LSTM-CRF 模型在POS（詞性標(biāo)注），chunking（語(yǔ)義組塊標(biāo)注）和 NER（命名實(shí)體識(shí)別）數(shù)據(jù)集上產(chǎn)生了令人驚奇的精確度。另外，BI-LSTM-CRF模型是一個(gè)健壯的，并且對(duì)詞嵌入具有更少依賴的模型。

1. 簡(jiǎn)介

??序列標(biāo)注任務(wù)包括POS（詞性標(biāo)注），chunking（語(yǔ)義組塊標(biāo)注）和NER（命名實(shí)體識(shí)別），都是自然語(yǔ)言處理類別的任務(wù)。已經(jīng)被研究者關(guān)注了數(shù)十年。這些輸出的標(biāo)簽?zāi)軌驊?yīng)用于下游的應(yīng)用。例如, 可以使用在用戶搜索查詢上訓(xùn)練過(guò)的命名實(shí)體識(shí)別器來(lái)標(biāo)識(shí)哪些文本范圍是產(chǎn)品, 從而觸發(fā)某些產(chǎn)品廣告。另一個(gè)例子是, 搜索引擎可以使用此類標(biāo)簽信息來(lái)查找相關(guān)網(wǎng)頁(yè)。
??絕大多數(shù)現(xiàn)有的序列標(biāo)注模型都是線性統(tǒng)計(jì)模型，包括隱含馬爾科夫模型（HMM），最大熵馬爾科夫模型（MEMMs），以及條件隨機(jī)場(chǎng)模型（CRF）。最近提出的基于卷積網(wǎng)絡(luò)的模型也被用來(lái)解決序列標(biāo)注問(wèn)題。我們指出，像Conv-CRF這樣，將卷積網(wǎng)絡(luò)和CRF組合在一起的模型，在序列標(biāo)注的任務(wù)上取得了比較好的效果。在語(yǔ)音理解社區(qū)，最近提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)的模型。其他相關(guān)的工作包括為語(yǔ)音識(shí)別提出了雙向循環(huán)網(wǎng)絡(luò)模型。
??在這篇文章中，我們?yōu)樾蛄袠?biāo)注任務(wù)提出了一系列基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (LSTM)_的模型。這些模型包括 LSTM 網(wǎng)絡(luò)，BI-LSTM 網(wǎng)絡(luò)，帶有條件隨機(jī)場(chǎng)（CRF）層的 LSTM 網(wǎng)絡(luò)（LSTM-CRF），以及帶有 CRF 層的 BI-LSTM 網(wǎng)絡(luò)（BI-LSTM-CRF）。我們的貢獻(xiàn)如下：

我們系統(tǒng)地比較了上述模型在 NLP 標(biāo)記數(shù)據(jù)集上的性能；
我們第一次將 BI-LSTM-CRF 模型應(yīng)用在 NLP 序列標(biāo)注的基準(zhǔn)數(shù)據(jù)集上。我們證明, 基于雙向 LSTM 組件, BI-LSTM-CRF 模型可以有效地利用過(guò)去和未來(lái)的輸入特征。借助 CRF 層, 它還可以使用句子級(jí)別的標(biāo)記信息。BI-LSTM-CRF 模型在 POS（詞性標(biāo)注），chunking（語(yǔ)義組塊標(biāo)注）和 NER（命名實(shí)體識(shí)別）數(shù)據(jù)集上產(chǎn)生了令人驚奇的精確度。
我們證明了 BI-LSTM-CRF 模型是一個(gè)健壯的，并且對(duì)詞嵌入具有更少依賴的模型。他可以在不依賴詞嵌入的前提下產(chǎn)生精確的標(biāo)記性能。

??本文剩余的內(nèi)容是這樣組織的。第二節(jié)描述本文中使用的序列標(biāo)注模型。第三節(jié)展示訓(xùn)練過(guò)程。第四節(jié)報(bào)告實(shí)驗(yàn)結(jié)果。第五節(jié)討論相關(guān)的研究。最后在第六節(jié)刻畫結(jié)論。

2. 模型

??在這一節(jié)，我們描述文本使用的模型：LSTM、BI-LSTM、CRF、LSTM-CRF 以及 BI-LSTM-CRF。

2.1 LSTM網(wǎng)絡(luò)

??循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在多種任務(wù)包括語(yǔ)言模型和語(yǔ)音識(shí)別中取得了很有前景的效果。RNN 維護(hù)了關(guān)于歷史信息的記憶，能夠使模型通過(guò)長(zhǎng)距離的特征來(lái)預(yù)測(cè)當(dāng)前的輸出。
??圖1展示了RNN的結(jié)構(gòu)，由輸入層 x，隱藏層 h 以及輸出層 y 組成。在命名實(shí)體標(biāo)注的上下文中，x 表示輸入特征而 y 表示標(biāo)簽。圖1展示的命名實(shí)體識(shí)別系統(tǒng)中，每一個(gè)單詞都標(biāo)注為其他（O）或者四種實(shí)體類型（人名 - PER，地名 - LOC，組織機(jī)構(gòu) - ORG，雜項(xiàng) - MISC）中的一個(gè)。句子 EU rejects German call to boycott British lamb. 被標(biāo)注為B-ORG，O，B-MISC，O，O，O，B-MISC，O，O，。其中前綴 B- 和 I- 表示每一個(gè)實(shí)體的開(kāi)始和中間的位置。
??一個(gè)輸入層表示時(shí)刻 t 的特征。可能是基于獨(dú)熱編碼的詞特征，密集的特征向量或者稀疏向量。輸入層的維度與應(yīng)當(dāng)與特征的大小相等。一個(gè)輸出層表示在時(shí)刻 t ，標(biāo)簽取值的概率分布。輸出層的維度與標(biāo)簽數(shù)量大小相等。與前饋神經(jīng)網(wǎng)絡(luò)相比，RNN引入了上個(gè)隱藏狀態(tài)與當(dāng)前隱藏狀態(tài)的連接（因而產(chǎn)生了循環(huán)層的權(quán)重參數(shù)）。這種循環(huán)層是設(shè)計(jì)用來(lái)保存歷史信息的。隱藏層和輸出層的值是通過(guò)下面的方式進(jìn)行計(jì)算的：

U，W 以及 V 就是在訓(xùn)練時(shí)刻被計(jì)算的連接權(quán)重，并且 f(z) 和 g(z) 是 sigmoid 和 softmax 激活函數(shù)：

圖1：一種簡(jiǎn)單的RNN模型

??在本文中，我們應(yīng)用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Memory）進(jìn)行序列標(biāo)注。LSTM 網(wǎng)絡(luò)和 RNNs 一樣，除了隱藏層的更新模塊被專門構(gòu)建的記憶細(xì)胞所取代。其結(jié)果就是，LSTM能夠更好的發(fā)現(xiàn)和探索數(shù)據(jù)中長(zhǎng)范圍的依賴信息。圖2展示了一個(gè)LSTM記憶細(xì)胞（cell）。

圖2：LSTM的記憶細(xì)胞

LSTM的記憶細(xì)胞是通過(guò)下面的公式實(shí)現(xiàn)的：

其中 σ 是邏輯 sigmoid 函數(shù)，以及i，f, o 和 c 分別是輸入門，遺忘門，輸出門和細(xì)胞向量，所有這些都與隱藏向量 h 的大小相同。權(quán)重矩陣下標(biāo)的含義與名稱是等價(jià)的。舉個(gè)例子， $W_{hi}$ 是隱藏 - 輸入門矩陣， $W_{xo}$ 是輸入 - 輸出門矩陣。從細(xì)胞（cell）到門（gate）向量的權(quán)值矩陣是對(duì)角矩陣，因此，每一個(gè)門向量中的元素 m 只接受來(lái)自于細(xì)胞向量元素m 的輸入。

圖3：一個(gè)LSTM網(wǎng)絡(luò)

2.2 雙向 LSTM 網(wǎng)絡(luò)

??在序列標(biāo)注任務(wù)中，我們需要在給定時(shí)間訪問(wèn)過(guò)去或未來(lái)的輸入特征，因此我們可以利用雙向 LSTM 網(wǎng)絡(luò)（圖4）。這樣做，我們能夠在指定的時(shí)間范圍內(nèi)有效地使用過(guò)去的特征（通過(guò)前向狀態(tài)）和未來(lái)的特征（通過(guò)后向的狀態(tài)）。我們使用通過(guò)時(shí)間的反向傳播（BPTT）來(lái)訓(xùn)練雙向LSTM網(wǎng)絡(luò)。隨著時(shí)間推移，在展開(kāi)的網(wǎng)絡(luò)上進(jìn)行的前向和后向傳遞同常規(guī)網(wǎng)絡(luò)中的前向和后向傳遞方式類似，除了我們需要對(duì)所有的時(shí)間步驟展開(kāi)隱藏狀態(tài)。我們還需要在數(shù)據(jù)點(diǎn)的開(kāi)始和結(jié)束時(shí)進(jìn)行特殊的處理。在我們的實(shí)現(xiàn)中，我們對(duì)整個(gè)句子進(jìn)行前向掃描和后向掃描的時(shí)候僅僅需要在句子的開(kāi)頭將隱藏狀態(tài)重置為0。我們做了批量的實(shí)現(xiàn)，這使得多個(gè)句子可以同時(shí)被處理。

圖4：一種 BI-LSTM 網(wǎng)絡(luò)

2.3 CRF網(wǎng)絡(luò)

??有兩種方式可以在預(yù)測(cè)當(dāng)前標(biāo)簽的時(shí)候使用鄰居的標(biāo)簽信息。第一種就是在每一個(gè)時(shí)間步都預(yù)測(cè)標(biāo)簽的分布然后使用 beam-like 編碼方式來(lái)發(fā)現(xiàn)最優(yōu)的標(biāo)簽序列。最大熵分類器和最大熵馬爾科夫模型（MEMMs）都屬于這種類別。第二種就是把關(guān)注點(diǎn)放在句子級(jí)別上，而不是個(gè)別位置，從而導(dǎo)致了條件隨機(jī)場(chǎng)（CRF）模型的出現(xiàn)（圖5）。注意，CRF 的輸入和輸出是直接相連的，這與 LSTM 和 BI-LSTM 網(wǎng)絡(luò)剛好相反，是通過(guò)記憶細(xì)胞和循環(huán)組件連接在一起的。
??一般情況下，CRF模型能夠產(chǎn)生更高的標(biāo)簽精度。有趣的是，這兩種使用標(biāo)簽信息方式之間的關(guān)系與兩種使用輸入特征的方式的關(guān)系類似（可以看看前文中的LSTM網(wǎng)絡(luò)和BI-LSTM網(wǎng)絡(luò)），并且本文的結(jié)果證明了BI-LSTM比LSTM要優(yōu)越。

圖5：一種CRF網(wǎng)絡(luò)

2.4 LSTM-CRF 網(wǎng)絡(luò)

??我們將LSTM網(wǎng)絡(luò)和CRF網(wǎng)絡(luò)整合成為L(zhǎng)STM-CRF模型，如圖6所示。通過(guò)LSTM層，這個(gè)模型可以有效的利用過(guò)去的輸入特征，通過(guò)CRF層，模型可以有效的利用句子級(jí)的標(biāo)簽信息。CRF層由連接連續(xù)輸出層的線條表示。CRF層具有一個(gè)狀態(tài)轉(zhuǎn)移矩陣作為參數(shù)。利用這樣的一個(gè)層，我們可以有效地利用過(guò)去和未來(lái)的標(biāo)簽來(lái)預(yù)測(cè)當(dāng)前的標(biāo)簽，這類似于雙向LSTM網(wǎng)絡(luò)能夠利用過(guò)去和未來(lái)的輸入特征。我們將分?jǐn)?shù)矩陣 $f_θ([x]_1^T)$ 看做是網(wǎng)絡(luò)的輸出。我們丟棄輸入 $[x]_1^T$ 來(lái)簡(jiǎn)化計(jì)數(shù)。矩陣攜帶θ的元素 $[f_θ]_{i,t}$ 是網(wǎng)絡(luò)輸出的關(guān)于句子 $[x]_1^T$ 中第 t 個(gè)詞的第 i 個(gè)標(biāo)簽的分?jǐn)?shù)。我們引入轉(zhuǎn)換分?jǐn)?shù) $[A]_{i,j}$ 來(lái)模擬一對(duì)連續(xù)的時(shí)間步長(zhǎng)從第 i 個(gè)狀態(tài)到第 j 個(gè)狀態(tài)的轉(zhuǎn)換。注意，這個(gè)轉(zhuǎn)移矩陣與位置無(wú)關(guān)。現(xiàn)在我們來(lái)看看網(wǎng)絡(luò)的新參數(shù) $\breve \theta=\theta\bigcup\{[A]_{i,j}\forall i,j \}$ 。然后，通過(guò)轉(zhuǎn)移分?jǐn)?shù)和網(wǎng)絡(luò)分?jǐn)?shù)的總和給出句子 $[x]^T_1$ 的分?jǐn)?shù)以及標(biāo)簽 $[i] ^T_1$ 的路徑：

動(dòng)態(tài)編程可以有效地用于計(jì)算 $[A]_{i,j}$ 和最佳標(biāo)簽的推理序列。

圖6：一種LSTM-CRF模型

2.5 BI-LSTM-CRF網(wǎng)絡(luò)

??與LSTM-CRF網(wǎng)絡(luò)類似，我們將一個(gè)雙向LSTM網(wǎng)絡(luò)和一個(gè)CRF網(wǎng)絡(luò)合并成為一個(gè)BI-LSTM-CRF網(wǎng)絡(luò)（圖7）。除像LSTM-CRF模型那樣能夠利用過(guò)去的輸入特征和句子級(jí)別的標(biāo)簽信息之外，BI-LSTM-CRF模型還能夠利用未來(lái)的輸入特征，這項(xiàng)額外的功能可以提高標(biāo)注的準(zhǔn)確性，正如我們將在實(shí)驗(yàn)中展示的那樣。

圖7：一個(gè)BI-LSTM-CRF模型

3 訓(xùn)練過(guò)程

??本文使用的所有模型都有一個(gè)通用的SGD前向和后向的訓(xùn)練程序。我們選擇最復(fù)雜的模型BI-LSTM-CRF，來(lái)展示算法1中描述的訓(xùn)練算法。在每一次迭代中，我們將整個(gè)訓(xùn)練數(shù)據(jù)分成很多批次，每一次處理一批。每一個(gè)批次包含一個(gè)句子列表，列表的大小由參數(shù) batch size 決定。在我們的實(shí)驗(yàn)中，每一個(gè)批次的大小為100（[ batch size ] = 100），這意味著每一次處理的句子列表的大小不會(huì)超出100。對(duì)于每個(gè)批次，我們首先運(yùn)行BI-LSTM-CRF模型進(jìn)行前向傳遞，其包括LSTM的前向狀態(tài)和后向狀態(tài)的前向傳遞。我們會(huì)獲取所有位置的所有標(biāo)簽的輸出分?jǐn)?shù)作為結(jié)果。然后，我們運(yùn)行CRF層的前向和后向傳遞，以計(jì)算網(wǎng)絡(luò)輸出和狀態(tài)轉(zhuǎn)換邊緣的梯度。做完這些，我們將錯(cuò)誤從輸出反向傳播到輸入，這包括對(duì)LSTM前向和后向狀態(tài)的反向傳遞。最后，我們更新網(wǎng)絡(luò)參數(shù)，這包括轉(zhuǎn)移矩陣 $[A]_{i,j} \forall i,j$ 和原初的BI-LSTM的參數(shù) $\theta$ 。

算法1：BI-LSTM-CRF模型訓(xùn)練過(guò)程

1: for each epoch do
2:   for each batch do
3:     1) bidirectional LSTM-CRF model forward pass:
4:         forward pass for forward state LSTM
5:         forward pass for backward state LSTM
6:     2) CRF layer forward and backward pass
7:     3) bidirectional LSTM-CRF model backward pass:
8:         backward pass for forward state LSTM
9:         backward pass for backward state LSTM
10:     4) update parameters
11:   end for
12: end for

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)

??我們?cè)谌齻€(gè)NLP序列標(biāo)注任務(wù)：Penn TreeBank（PTB，賓州樹(shù)庫(kù)）詞性標(biāo)注，CoNLL 2000 語(yǔ)義組塊識(shí)別，以及CoNLL 2003 命名實(shí)體標(biāo)注上測(cè)試了LSTM、BI-LSTM、CRF、LSTM-CRF以及BI-LSTM-CRF模型。表格1展示了句子、詞以及訓(xùn)練標(biāo)簽的數(shù)量，以及驗(yàn)證和測(cè)試集。
??序列標(biāo)注為每一個(gè)詞分配一個(gè)標(biāo)簽，這個(gè)標(biāo)簽標(biāo)識(shí)詞的句法角色。在語(yǔ)義組塊中，使用短語(yǔ)類型來(lái)標(biāo)注每一個(gè)詞。舉個(gè)例子：標(biāo)簽 B-NP 表示一個(gè)詞開(kāi)始了一個(gè)名詞短語(yǔ)。在NER（命名實(shí)體識(shí)別）任務(wù)中，每一個(gè)詞使用其他的實(shí)體類型或者四種實(shí)體類型中的一個(gè)：Person，Location，Organization或者M(jìn)iscellaneous來(lái)標(biāo)注。對(duì)于語(yǔ)義組塊識(shí)別和命名實(shí)體實(shí)體識(shí)別任務(wù)，我們使用 BIO2 規(guī)范來(lái)標(biāo)注訓(xùn)練數(shù)據(jù)。

4.2 特征

??我們?yōu)槿齻€(gè)數(shù)據(jù)集抽取相同類型的特征。這些特征可以分組為拼寫特征和上下文特征。我們?yōu)橹付ǖ腜OS、chunking、NER數(shù)據(jù)集分別抽取了401K，76K，341K的特征數(shù)據(jù)。這些特征類似于使用 Stanford NER 工具抽取的特征。注意除了使用Senna嵌入之外，對(duì)于POS和chunking任務(wù)我們并未使用額外的數(shù)據(jù)。對(duì)于NER任務(wù)，我們報(bào)告使用拼寫和上下文特征的性能，同時(shí)我們也增量報(bào)告了使用Senna嵌入和Gazetteer特征的結(jié)果。

4.2.1 拼寫特征

??除了單詞的小寫特征外，我們還未一個(gè)給定的單詞提取以下特征。

是否首字母大寫
是否所有字母都是大寫
是否所有字母都是小寫
是否有非首字母的大寫字母
是否是由字母和數(shù)字混合的
是否由標(biāo)點(diǎn)符號(hào)
字母前綴和后綴 (窗口大小為2到 5)
是否由（'s）結(jié)尾
只包含一個(gè)字母，例如： I. B. M. 對(duì)IBM
不只包含字母，例如：A. T. &T. 對(duì)..&
單詞模式特征，用大寫字母、小寫字母和數(shù)字分別映射到 "A"、"a" 和 "0"，例如：D56y-3 到 A00a-0。
單詞模式摘要特征，類似于詞模式特征，但是刪除了連續(xù)相同的字符。

4.2.2 上下文特征

??對(duì)于三個(gè)數(shù)據(jù)集中的詞特征，我們使用一元和二元語(yǔ)法特征。對(duì)于CoNLL2000數(shù)據(jù)集在POS任務(wù)，以及CoNLL2003數(shù)據(jù)集在POS和CHUNK任務(wù)上的特征，我們使用一元，二元和三元語(yǔ)法特征。

4.2.3 詞嵌入

??詞嵌入在提升序列標(biāo)注性能上扮演了一個(gè)至關(guān)重要的角色。我們下載了詞典長(zhǎng)度為130K，維度為50維的詞嵌入模型，在嵌入層，我們只是簡(jiǎn)單的將獨(dú)熱編碼的詞表示替換成為50維的詞向量。

4.2.4 特征連接技巧

??我們處理拼寫特征和上下文特征的方式和處理詞特征的方法一樣。也就是說(shuō)，網(wǎng)絡(luò)的輸入同時(shí)包括詞，拼寫和上下文特征。然而，我們發(fā)現(xiàn)從拼寫和上下文特征到輸出的直接連接可以加速訓(xùn)練，并且會(huì)導(dǎo)致非常相似的標(biāo)注精度。圖8展示了特征與輸出直接相連的網(wǎng)絡(luò)。我們將報(bào)告所有使用了這種連接方式的精確度。我們注意到這種特征應(yīng)用方式與 Mikolov et al. 2011 中使用的最大熵特征有相同的思想。不同之處在于 Mikolov et al. 2011 中采用了特征哈希技術(shù)，因此會(huì)發(fā)生特征碰撞。因?yàn)樾蛄袠?biāo)注數(shù)據(jù)集中輸出的標(biāo)簽數(shù)遠(yuǎn)遠(yuǎn)小于語(yǔ)言模型（通常有數(shù)十萬(wàn)個(gè)），所以我們可以保證在特征和輸出之間采用全連接的同時(shí)避免潛在的特征碰撞。

圖8：采用了MaxEnt特征的BI-LSTM-CRF模型

表1：句子，詞以及訓(xùn)練標(biāo)簽的數(shù)量，驗(yàn)證和測(cè)試數(shù)據(jù)集

4.3 結(jié)果

??我們針對(duì)每一個(gè)數(shù)據(jù)集訓(xùn)練LSTM，BI-LSTM，CRF，LSTM-CRF以及BI-LSTM-CRF模型。我們使用兩種方式來(lái)初始化詞嵌入：Random 和 Senna。在第一類中我們隨機(jī)地初始化詞嵌入向量，第二類中，我們使用Senna詞嵌入。對(duì)于每一種類別，我們使用相同的特征集，因此不同的結(jié)果完全是由于不同的網(wǎng)絡(luò)產(chǎn)生的。我們使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型，使用驗(yàn)證數(shù)據(jù)集來(lái)監(jiān)控性能。如果分塊的數(shù)據(jù)沒(méi)有驗(yàn)證數(shù)據(jù)，我們使用部分訓(xùn)練數(shù)據(jù)來(lái)驗(yàn)證模型。
??我們使用0.1的學(xué)習(xí)率來(lái)訓(xùn)練模型。我們?cè)O(shè)置隱藏層的大小為300，同時(shí)發(fā)現(xiàn)模型的性能對(duì)于隱藏層大小并不敏感。這三種任務(wù)的訓(xùn)練需要不到10次迭代就能夠收斂，一般需要不到幾個(gè)小時(shí)。我們?cè)诒?中報(bào)告了模型在測(cè)試數(shù)據(jù)集上的性能，同時(shí)我們也列出了論文（Collobert et al., 2011）中的最好結(jié)果，表示為Conv-CRF。POS任務(wù)通過(guò)計(jì)算每個(gè)字的準(zhǔn)確性進(jìn)行評(píng)估，而 chunk 和 NER 任務(wù)則通過(guò)計(jì)算組塊上的 F1 分?jǐn)?shù)來(lái)評(píng)估。

表2：各模型在 POS、chunking 和 NER 任務(wù)上的標(biāo)注性能比較

4.3.1 與Conv-CRF網(wǎng)絡(luò)的比較

??我們有三個(gè)基準(zhǔn)模型：LSTM，BI-LSTM 以及 CRF。LSTM是這三個(gè)數(shù)據(jù)集上最弱的基準(zhǔn)。BI-LSTM 在 POS 和 chunking 數(shù)據(jù)集上的性能接近CRF，但是在NER數(shù)據(jù)集上的性能不如CRF。CRF模型在我們的實(shí)驗(yàn)中是最強(qiáng)的基準(zhǔn)。對(duì)于隨機(jī)類別, CRF 模型在所有三個(gè)數(shù)據(jù)集中的性能優(yōu)于 Conv-CRF 模型。對(duì)于Senna類別，CRF 模型在 POS 任務(wù)上的表現(xiàn)優(yōu)于 Conv-CRF，但在 chunking 和 NER 任務(wù)上的表現(xiàn)不如 Conv-CRF。LSTM-CRF 模型的性能在所有數(shù)據(jù)集上優(yōu)于 CRF 模型。這表明了正向 LSTM 組件在建模序列數(shù)據(jù)中的有效性。BI-LSTM-CRF 模型進(jìn)一步改進(jìn)了 LSTM-CRF 模型，BI-LSTM-CRF 在除了隨機(jī)類型的 POS 任務(wù)（該任務(wù)還是 LSTM-CRF 性能最好）之外的其他所有任務(wù)上取得了最好的標(biāo)注性能。在 CoNLL 200 的 Senna 類別中，括號(hào)里面的數(shù)字是由 Gazetteer 特征生成。
??有趣的是，我們最好的模型 BI-LSTM-CRF 對(duì) Senna 詞嵌入的依賴性比 Conv-CRF 模型要小。例如，BI-LSTM-CRF 在隨機(jī)類型和Senna類型之間的標(biāo)記差異分別是 POS：0.12%，chunking：0.33%，NER：4.57% 。相反，Conv-CRF模型在很大程度上依賴于Senna嵌入以獲得良好的標(biāo)記準(zhǔn)確性，標(biāo)記差異分別為 POS：0.92％，chunking：3.99％和NER：7.20％。

4.3.2 模型健壯性

??為了估計(jì)模型在工程特征（拼寫和上下文特征）方面的穩(wěn)健性，我們僅僅使用詞特征訓(xùn)練 LSTM，BI-LSTM，CRF，LSTM-CRF和 BI-LSTM-CRF 模型（移除了拼寫和上下文特征）。表3顯示了使用Senna字嵌入的建議模型在 POS，chunking 和 NER 數(shù)據(jù)集上的標(biāo)記性能。其中括號(hào)中的數(shù)字表示與使用了拼寫和上下文特征的相同模型相比，下降的性能。CRF模型在移除了拼寫和上下文特征的情況下發(fā)生了顯著的性能下降。這表明了CRF模型嚴(yán)重依賴特征工程的事實(shí)。換句話說(shuō)，基于LSTM的模型，尤其是 BI-LSTM 和 BI-LSMT-CRF模型是更加健壯的，并且當(dāng)我們移除工程化的特征后，受到的影響也最低。對(duì)于所有三個(gè)任務(wù)，BI-LSTM-CRF模型擁有最高的標(biāo)注精度。例如，BI-LSTM-CRF 在 CoNLL 2000 上的 chunking 任務(wù)取得了94.40的F1分?jǐn)?shù)，比起使用了拼寫和上下文特征的模型，只降低了（0.06）。

表3：只使用詞特征的情況下POS、chunking、NER任務(wù)的標(biāo)注性能

4.3.3 與已存在系統(tǒng)的比較

??對(duì)于 POS 數(shù)據(jù)集，我們?cè)谑褂没虿皇褂妙~外數(shù)據(jù)資源的情況下實(shí)現(xiàn)了最先進(jìn)的標(biāo)記準(zhǔn)確性。POS 數(shù)據(jù)集已經(jīng)過(guò)廣泛測(cè)試，過(guò)去的改進(jìn)可以在表4中看到。我們的測(cè)試準(zhǔn)確率為97.55％，在置信水平為95％時(shí)明顯優(yōu)于其他測(cè)試。此外，我們的BI-LSTM-CRF模型在無(wú)需使用Senna詞嵌入的情況下達(dá)到了良好的精度。

表4：不同模型的POS標(biāo)注精度比較

??所有 chunking 系統(tǒng)的性能如表5所示。Kudo 等人贏得了 CoNLL 2000 的挑戰(zhàn)賽，F(xiàn)1得分為93.48％。他們的方法是基于SVM的分類器。他們后來(lái)將結(jié)果提高到93.91％。最近的工作包括基于 CRF 的模型（Sha 和 Pereira ，2003年；Mcdonald 等人，2005年；Sun 等，2008年）。更近期的是（Shen 和 Sarkar，2005年），其使用的投票分類器方案獲得了95.23％的準(zhǔn)確度，其中每個(gè)分類器在不同的標(biāo)簽表示（IOB，IOE等）上訓(xùn)練。除了（Shen 和 Sarkar，2005年）之外，我們的模型優(yōu)于所有報(bào)告的系統(tǒng)。
??NER的所有系統(tǒng)的性能如表6所示。（Florian 等，2003年）在 NER CoNLL 2003 挑戰(zhàn)中成為最佳系統(tǒng)，F(xiàn)1得分為88.76％。他們使用了各種機(jī)器學(xué)習(xí)分類器的組合。排名第二的是（Chieu，2003年），F(xiàn)
1得分是88.31％，也是在外部地名錄的幫助下。在這之后，（Ando 和 Zhang，2005年）以半監(jiān)督方式達(dá)到了89.31％的F1值。（Passos 等，2014）報(bào)告了90.90％的最佳F1得分，它采用了一種新的形式來(lái)學(xué)習(xí)單詞嵌入，這種方式可以利用相關(guān)詞典中的信息來(lái)改進(jìn)表示。我們的模型可以通過(guò) Senna 嵌入和地名詞典功能獲得90.10的最佳F1分?jǐn)?shù)。它的F1得分低于（Passos 等，2014），這可能是由于采用了不同的詞嵌入這一事實(shí)。使用相同的Senna嵌入，BI-LSTM-CRF略微優(yōu)于Conv-CRF（90.10％對(duì)比89.59％）。然而，如果使用隨機(jī)嵌入，BI-LSTM-CRF明顯優(yōu)于Conv-CRF（84.26％對(duì)81.47％）。

表5：不同模型的chunking任務(wù)F1得分比較

表6：不同模型在NER任務(wù)上的F1得分比較

5. 討論（Discussions）

??我們的工作與（Collobert等，2011年）的工作接近，都是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行序列標(biāo)注。他們的工作使用的是卷積神經(jīng)網(wǎng)絡(luò)，而我們的工作是使用雙向LSTM網(wǎng)絡(luò)。
??我們的工作也接近（Hammerton，2003年；Yao 等，2014年）的工作，因?yàn)樗麄兌际褂?LSTM 網(wǎng)絡(luò)進(jìn)行序列標(biāo)記。（Hammerton，2003年）的表現(xiàn)并不令人印象深刻。（Yao 等，2014年）的工作沒(méi)有使用雙向 LSTM 和 CRF 層，因此標(biāo)注的準(zhǔn)確性可能會(huì)受到影響。
??最后，我們的工作與（Wang 和 Manning，2013年）的工作有關(guān)，其結(jié)論是非線性體系結(jié)構(gòu)在高維離散特征空間中沒(méi)有任何好處。我們展示了使用 BI-LSTM-CRF 模型，我們始終獲得比具有相同特征集的單個(gè)CRF模型更好的標(biāo)記精度。

6. 結(jié)論（Conclusions）

??在這篇論文中，我們有計(jì)劃的比較了基于LSTM網(wǎng)絡(luò)的模型在序列標(biāo)注上的性能。我們第一個(gè)提出將BI-LSTM-CRF模型應(yīng)用于NLP基準(zhǔn)序列標(biāo)注數(shù)據(jù)。我們的模型可以在POS，chunking 和 NER 數(shù)據(jù)集上產(chǎn)生最先進(jìn)（或接近）的精度。此外，與（Collobert 等，2011年）中的觀察相比，我們的模型是健壯的并且對(duì)字嵌入的依賴性較小。它可以在不使用詞嵌入的前提下實(shí)現(xiàn)準(zhǔn)確的序列標(biāo)注。

原文地址：《BiLSTM-CRF Models for Sequence Tagging》

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

BiLSTM-CRF Models for Sequence Tagging（翻譯）

BiLSTM-CRF Models for Sequence Tagging（翻譯）

Abstract（摘要）

1. 簡(jiǎn)介

2. 模型

2.1 LSTM網(wǎng)絡(luò)

2.2 雙向 LSTM 網(wǎng)絡(luò)

2.3 CRF網(wǎng)絡(luò)

2.4 LSTM-CRF 網(wǎng)絡(luò)

2.5 BI-LSTM-CRF網(wǎng)絡(luò)

3 訓(xùn)練過(guò)程

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)

4.2 特征

4.2.1 拼寫特征

4.2.2 上下文特征

4.2.3 詞嵌入

4.2.4 特征連接技巧

4.3 結(jié)果

4.3.1 與Conv-CRF網(wǎng)絡(luò)的比較

4.3.2 模型健壯性

4.3.3 與已存在系統(tǒng)的比較

5. 討論（Discussions）

6. 結(jié)論（Conclusions）

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

BiLSTM-CRF Models for Sequence Tagging（翻譯）

Abstract（摘要）

1. 簡(jiǎn)介

2. 模型

2.1 LSTM網(wǎng)絡(luò)

2.2 雙向 LSTM 網(wǎng)絡(luò)

2.3 CRF網(wǎng)絡(luò)

2.4 LSTM-CRF 網(wǎng)絡(luò)

2.5 BI-LSTM-CRF網(wǎng)絡(luò)

3 訓(xùn)練過(guò)程

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)

4.2 特征

4.2.1 拼寫特征

4.2.2 上下文特征

4.2.3 詞嵌入

4.2.4 特征連接技巧

4.3 結(jié)果

4.3.1 與Conv-CRF網(wǎng)絡(luò)的比較

4.3.2 模型健壯性

4.3.3 與已存在系統(tǒng)的比較

5. 討論（Discussions）

6. 結(jié)論（Conclusions）

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av