簡(jiǎn)介
BERT是經(jīng)過預(yù)先訓(xùn)練的Transformer模型,已在多個(gè)NLP任務(wù)上取得了突破性的性能。最近,我遇到了BERTSUM,這是愛丁堡的Liu的論文。本文擴(kuò)展了BERT模型,以在文本摘要上達(dá)到最新的分?jǐn)?shù)。在此博客中,我將解釋本文以及如何使用此模型進(jìn)行工作。
單文檔文本摘要是自動(dòng)生成文檔的較短版本,同時(shí)保留其最重要信息的任務(wù)。該任務(wù)在自然語(yǔ)言處理社區(qū)中受到了很多關(guān)注。由于它對(duì)于各種信息訪問應(yīng)用程序具有巨大的潛力。示例包括提取文本內(nèi)容(例如,新聞,社交媒體,評(píng)論),回答問題或提供建議的工具。匯總模型可以有兩種類型:
提取摘要-類似于使用熒光筆。我們從原始文本中選擇文本的子段,以創(chuàng)建一個(gè)很好的摘要
抽象性摘要-類似于用筆書寫。創(chuàng)建摘要以提取要點(diǎn),并且可以使用原始文本中未包含的詞。這對(duì)于機(jī)器來(lái)說更難
文本摘要系統(tǒng)的性能通過其ROUGE得分來(lái)衡量。 ROUGE得分用??于衡量預(yù)測(cè)的摘要與基本事實(shí)摘要之間的重疊。
BERT的主要技術(shù)創(chuàng)新是將流行的注意力模型Transformer的雙向培訓(xùn)應(yīng)用于語(yǔ)言建模。它的成功表明,經(jīng)過雙向訓(xùn)練的語(yǔ)言模型比單向語(yǔ)言模型可以更深刻地理解語(yǔ)言環(huán)境和流程。這是學(xué)習(xí)BERT的絕佳鏈接。
BERT也可用于下一句預(yù)測(cè)。該模型接收成對(duì)的句子作為輸入,并學(xué)習(xí)預(yù)測(cè)成對(duì)的第二句話是否是原始文檔中的后續(xù)句子。在訓(xùn)練期間,輸入的50%是一對(duì),其中第二句話是原始文檔中的后續(xù)句子。而在其他50%中,從語(yǔ)料庫(kù)中隨機(jī)選擇一個(gè)句子作為第二個(gè)句子。
使用BERT提取文本摘要—?BERTSUM Model
修改了BERT模型,以生成多個(gè)句子的句子嵌入。這是通過在每個(gè)句子的開頭之前插入[CLS]令牌來(lái)完成的。然后,輸出是每個(gè)句子的句子向量。然后,將句子向量傳遞到多層,從而輕松捕獲文檔級(jí)功能。將最終的匯總預(yù)測(cè)與基本事實(shí)進(jìn)行比較,并將損失用于訓(xùn)練匯總層和BERT模型。

BERTSUM模型架構(gòu)
該模型在CNN /每日郵件和NYT注釋的語(yǔ)料庫(kù)上進(jìn)行了訓(xùn)練。由于來(lái)自兩個(gè)語(yǔ)料庫(kù)的基本事實(shí)是抽象摘要,因此創(chuàng)建了新的基本事實(shí)。貪心算法用于為每個(gè)文檔生成預(yù)言摘要。該算法貪婪地選擇可以使ROUGE得分最大化的句子作為預(yù)言句。我們將標(biāo)簽1分配給oracle摘要中選擇的句子,否則分配0。
本文顯示了文本摘要非常精確的結(jié)果,優(yōu)于最新的抽象和提取摘要模型。見下表。這里的第一行是指針生成器模型,在我的博客中有更詳細(xì)的解釋。
