色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊(cè)寫文章

TF-IDF計(jì)算過程

南風(fēng)寄羽

TF-IDF計(jì)算過程

本文內(nèi)容主要摘自python? machine? learning? 2nd? ?edition

1、假設(shè)我們有以下三個(gè)文本

? 'The sun is shining'

?? 'The weather is sweet'

?? 'The sun is shining, the weather is sweet, and one and one is? two

2、利用CountVectorizer類得到如下字典

{'and': 0,'two': 7,'shining': 3,'one': 2,'sun': 4,'weather': 8,'the': 6,'sweet': 5,'is': 1}

3、將步驟1的文檔轉(zhuǎn)換為矩陣

[[0 1 0 1 1 0 1 0 0]

[0 1 0 0 0 1 1 0 1]

[2 3 2 1 1 1 2 1 1]]

4.計(jì)算tf-idf值

我們以is為例進(jìn)行計(jì)算，is對(duì)應(yīng)的是矩陣第二列。

tf值，表示term在該文本中出現(xiàn)的次數(shù)，這里即is在文本3出現(xiàn)的次數(shù)，很容易看出是3.

idf值，sklearn做了小小的改動(dòng)，公式是 (1+log $\frac{1+n_u0z1t8os }{1+df(d,t)}$ ).? $n_u0z1t8os$ 的意思就是文本總數(shù)（number of? document）,df(d,t)表示包含is 的文件數(shù)目，很明顯，這里也是3.這樣，計(jì)算的結(jié)果為3*(1+log $\frac{1+3}{1+3}$ )=3.

需要注意的是，sklearn對(duì)結(jié)果進(jìn)行了正則化處理。

l2 norm

最終得到的結(jié)果為

[[ 0.? 0.43? ?0. 0.56 0.56? 0.? ? 0.43? ? 0.? ? 0. ]

[ 0.??0.43? ? 0.? ?0.? ?0.? ? 0.56 0.43? 0.? ?0.56]

[ 0.5 0.45? ?0.5 0.19 0.19 0.19 0.3 0.25 0.19]]

每一行的平方和均為1，這是l2正則化處理的結(jié)果。

另外可以看出，原先is的詞頻是 1 1 3，最終tf-idf值是0.43 0.43 0.45 。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

rljs
rljs by sennchi Timeline of History Part One The Cognitiv...
sennchi閱讀 7,840評(píng)論 0贊 10
人人都會(huì)打網(wǎng)球--The Inner Game of Tennis
The Inner Game of Tennis W Timothy Gallwey Jonathan Cape ...
網(wǎng)事_79a3閱讀 12,887評(píng)論 3贊 20

tf API 研讀2：math
TF API數(shù)學(xué)計(jì)算tf...... ：math（1）剛開始先給一個(gè)運(yùn)行實(shí)例。tf是基于圖（Graph）的計(jì)算系統(tǒng)...
MachineLP閱讀 4,046評(píng)論 0贊 1
架構(gòu)、目標(biāo)、權(quán)利、責(zé)任
明確的架構(gòu) 接手任何一個(gè)部門的最重要的事情，是明確或者重新調(diào)整組織架構(gòu)。架構(gòu)的關(guān)鍵是：誰在什么位置，負(fù)責(zé)什么內(nèi)容，...
ChiRain閱讀 447評(píng)論 0贊 3
5月9日星期二
早起看到了周六去李寧的視頻很享受啊只是老師竟然會(huì)說到肖像權(quán)的問題這個(gè)意識(shí)得有教學(xué)設(shè)計(jì)課第一次和斯婕小組很稀飯下午講...
dq920813閱讀 240評(píng)論 0贊 0

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

彰化县| 万州区| 曲水县| 田阳县| 扶绥县| 中宁县| 隆昌县| 浠水县| 淳安县| 焦作市| 县级市| 伊金霍洛旗| 三台县| 独山县| 怀化市| 定南县| 扎兰屯市| 黑龙江省| 桐城市| 富宁县| 富阳市| 宁强县| 南丰县| 静乐县| 达孜县| 元朗区| 恩施市| 榆树市| 尖扎县| 郯城县| 富宁县| 博湖县| 甘南县| 容城县| 贡山| 平顶山市| 三穗县| 文昌市| 涞源县| 蓝山县| 彰化县|

<thead id="7y07c"></thead>

<fieldset id="7y07c"></fieldset>