国模无码6979,性欧美二区,日韩人妻精品无码专区

概念

詞頻-逆文檔頻度（Term Frequency - Inverse Document Frequency，TF-IDF）技術(shù)，是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)，可以用來評(píng)估一個(gè)詞對(duì)于一個(gè)文檔集或語料庫中某個(gè)文檔的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時(shí)會(huì) 隨著它在語料庫中出現(xiàn)的頻率成反比下降。如果某個(gè)詞比較少見，但是它在這篇文章中多次出現(xiàn)，那么它很可能就反映了這篇文章的特性，正是我們所需要的關(guān)鍵詞。

原理

以統(tǒng)計(jì)一篇文檔的關(guān)鍵詞為例，最簡單的方法就是計(jì)算每個(gè)詞的詞頻。
詞頻 (term frequency, TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。

tf.png

出現(xiàn)頻率最高的詞就是這篇文檔的關(guān)鍵詞。但是一篇文章中出現(xiàn)頻率最高的詞肯定是“的”、‘是’、‘也’……這樣的詞，這些詞顯然不能反應(yīng)文章的意思，此時(shí)就需要對(duì)每個(gè)詞加一個(gè)權(quán)重，最常見的詞（"的"、"是"、"在"）給予最小的權(quán)重，較少見的但能反應(yīng)這篇文章意思的詞給予較大的權(quán)重，這個(gè)權(quán)重叫做逆文檔頻率。
**逆文檔頻率(nverse Document Frequency，IDF) **是一個(gè)詞語普遍重要性的度量，它的大小與一個(gè)詞的常見程度成反比，計(jì)算方法是語料庫的文檔總數(shù)除以語料庫中包含該詞語的文檔數(shù)量，再將得到的商取對(duì)數(shù)。

idf.png

知道了TF和IDF以后，將這兩個(gè)值相乘，就得到了一個(gè)詞的TF-IDF值。某個(gè)詞對(duì)文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的幾個(gè)詞，就是這篇文章的關(guān)鍵詞。

tf-idf.png

可以看到，TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比，與該詞在整個(gè)語言中的出現(xiàn)次數(shù)成反比。所以，自動(dòng)提取關(guān)鍵詞的算法就很清楚了，就是計(jì)算出文檔的每個(gè)詞的TF-IDF值，然后按降序排列，取排在最前面的幾個(gè)詞。

參考

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

TF-IDF（詞頻-逆文檔頻率）介紹

TF-IDF（詞頻-逆文檔頻率）介紹

概念

原理

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

TF-IDF（詞頻-逆文檔頻率）介紹

概念

原理

參考

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av