好好活著,死后還不知道要走什么鬼路
PageRank 算法計(jì)算每一個(gè)網(wǎng)頁的 PageRank 值,然后根據(jù)這個(gè)值的大小對網(wǎng)頁的重要性進(jìn)行排序。它的思想是模擬一個(gè)悠閑的上網(wǎng)者,上網(wǎng)者...
文本預(yù)處理 (1)分句 替換\n (2)分詞 jiabe jiagu,hanlp,pkuseg (3)取出標(biāo)點(diǎn) ,.?""; (4)...
LDA解釋:假如有一篇文章text,通過里面的詞,來確定他是什么類型的文章,如果文章中出現(xiàn)很多體育類的詞,比如,籃球,足球之類的,那么主題模型就...
關(guān)系抽取需要從文本中抽取兩個(gè)或多個(gè)實(shí)體之間的語義關(guān)系,主要方法有下面幾類: 基于模板的方法(hand-written patterns) 基于觸...
命名實(shí)體識別(Named EntitiesRecognition,NER)是自然語言處理的一個(gè)基礎(chǔ)任務(wù)。其目的是識別語料中人名、地名、組...
基本概念 語料(Corpus):一組原始文本的集合,用于無監(jiān)督地訓(xùn)練文本主題的隱層結(jié)構(gòu)。語料中不需要人工標(biāo)注的附加信息。在Gensim中,Cor...
離散表示 One-hot One-hot表示很容易理解。在一個(gè)語料庫中,給每個(gè)字/詞編碼一個(gè)索引,根據(jù)索引進(jìn)行one-hot表示。 John l...
文本數(shù)據(jù)的基本體征提取 詞匯數(shù)量 (理由:負(fù)面情緒評論含有詞語數(shù)量比正面情緒評論多) 字符數(shù)量 (理由:負(fù)面情緒評論含有詞語數(shù)量比正面情緒評論多...