Embedding+抽取式摘要

1)對于某個文檔進行分句

2)對于每個分句使用Word2Vec等工具進行向量化(Word Embedding),

3)將句子中的每個詞或詞組的Word Embedding直接累加,從而獲得句子的Word Embedding表示;

4)把每個句子的WordEmbedding直接累加獲得整個文檔的Word Embedding。

如圖1所示,這樣文檔和句子都以Word Embedding的低維度向量來表示,這個向量分別代表了文檔和句子的語義信息。

圖1.根據(jù)句子word Embedding獲得文檔Word Embedding

*摘要句子抽取過程,其基本思路是非常簡單的:哪些句子在語義上與文檔整體語義更相似,那么就選哪些句子作為摘要句。

具體實現(xiàn)流程如圖2所示。就是直接用每個句子的語義向量和文檔整體語義向量來通過Cosine距離計算兩者之間的距離,分值越大,說明這個句子在語義上越和文檔整體語義越匹配,那么就越有代表性。當每個句子都算出和文檔整體語義的語義相似性得分后,根據(jù)得分由高到低排序,并按需要輸出一定數(shù)量的句子作為文檔的摘要。


圖2. 摘要計算流程

參考:https://blog.csdn.net/malefactor/article/details/51264244

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容