LDA模型應用:一眼看穿希拉里的郵件 我們拿到希拉里泄露的郵件,跑一把LDA,看看她平時都在聊什么。 首先,導入我們需要的一些庫 然后,把郵件讀取進來。 這里我們用panda...
TF-IDF,理解起來相當簡單,他實際上就是TF*IDF,兩個計算值的乘積,用來衡量一個詞庫中的詞對每一篇文檔的重要程度。下面我們分開來講這兩個值,TF和IDF。 TF TF...
貝葉斯公式 貝葉斯公式就一行: 而它其實是由以下的聯合概率公式推導出來: 其中 P(Y) 叫做先驗概率, P(Y|X) 叫做后驗概率, P(Y,X) 叫做聯合概率。 機器學習...
jieba.cut 以及 jieba.cut_for_search 相同點:1 返回值都是迭代值。2.接受參數都有(1)需要分詞的字符串(2)是否使用 HMM 模型不同點:j...