TF-IDF計(jì)算過程

本文內(nèi)容主要摘自python? machine? learning? 2nd? ?edition

1、假設(shè)我們有以下三個(gè)文本

? 'The sun is shining'

?? 'The weather is sweet'

?? 'The sun is shining, the weather is sweet, and one and one is? two

2、利用CountVectorizer類得到如下字典

{'and': 0,'two': 7,'shining': 3,'one': 2,'sun': 4,'weather': 8,'the': 6,'sweet': 5,'is': 1}

3、將步驟1的文檔轉(zhuǎn)換為矩陣

[[0 1 0 1 1 0 1 0 0]

[0 1 0 0 0 1 1 0 1]

[2 3 2 1 1 1 2 1 1]]

4.計(jì)算tf-idf值

我們以is為例進(jìn)行計(jì)算,is對(duì)應(yīng)的是矩陣第二列。

tf值,表示term在該文本中出現(xiàn)的次數(shù),這里即is在文本3出現(xiàn)的次數(shù),很容易看出是3.

idf值,sklearn做了小小的改動(dòng),公式是 (1+log\frac{1+n_u0z1t8os }{1+df(d,t)} ).?n_u0z1t8os 的意思就是文本總數(shù)(number of? document),df(d,t)表示包含is 的文件數(shù)目,很明顯,這里也是3.這樣,計(jì)算的結(jié)果為3*(1+log\frac{1+3}{1+3} )=3.

需要注意的是,sklearn對(duì)結(jié)果進(jìn)行了正則化處理。


l2 norm

最終得到的結(jié)果為

[[ 0.? 0.43? ?0. 0.56 0.56? 0.? ? 0.43? ? 0.? ? 0. ]

[ 0.??0.43? ? 0.? ?0.? ?0.? ? 0.56 0.43? 0.? ?0.56]

[ 0.5 0.45? ?0.5 0.19 0.19 0.19 0.3 0.25 0.19]]

每一行的平方和均為1,這是l2正則化處理的結(jié)果。

另外可以看出,原先is的詞頻是 1 1 3,最終tf-idf值是0.43 0.43 0.45 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,840評(píng)論 0 10
  • The Inner Game of Tennis W Timothy Gallwey Jonathan Cape ...
    網(wǎng)事_79a3閱讀 12,887評(píng)論 3 20
  • TF API數(shù)學(xué)計(jì)算tf...... :math(1)剛開始先給一個(gè)運(yùn)行實(shí)例。tf是基于圖(Graph)的計(jì)算系統(tǒng)...
    MachineLP閱讀 4,046評(píng)論 0 1
  • 明確的架構(gòu) 接手任何一個(gè)部門的最重要的事情,是明確或者重新調(diào)整組織架構(gòu)。架構(gòu)的關(guān)鍵是:誰在什么位置,負(fù)責(zé)什么內(nèi)容,...
    ChiRain閱讀 447評(píng)論 0 3
  • 早起看到了周六去李寧的視頻很享受啊只是老師竟然會(huì)說到肖像權(quán)的問題這個(gè)意識(shí)得有教學(xué)設(shè)計(jì)課第一次和斯婕小組很稀飯下午講...
    dq920813閱讀 240評(píng)論 0 0

友情鏈接更多精彩內(nèi)容