TF-IDF(詞頻-逆文檔頻率)介紹

概念

詞頻-逆文檔頻度(Term Frequency - Inverse Document Frequency,TF-IDF)技術(shù),是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),可以用來評(píng)估一個(gè)詞對(duì)于一個(gè)文檔集或語料庫中某個(gè)文檔的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加 ,但同時(shí)會(huì) 隨著它在語料庫中出現(xiàn)的頻率成反比下降 。如果某個(gè)詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。

原理

以統(tǒng)計(jì)一篇文檔的關(guān)鍵詞為例,最簡單的方法就是計(jì)算每個(gè)詞的詞頻。
詞頻 (term frequency, TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。

tf.png

出現(xiàn)頻率最高的詞就是這篇文檔的關(guān)鍵詞。但是一篇文章中出現(xiàn)頻率最高的詞肯定是“的”、‘是’、‘也’……這樣的詞,這些詞顯然不能反應(yīng)文章的意思,此時(shí)就需要對(duì)每個(gè)詞加一個(gè)權(quán)重,最常見的詞("的"、"是"、"在")給予最小的權(quán)重,較少見的但能反應(yīng)這篇文章意思的詞給予較大的權(quán)重,這個(gè)權(quán)重叫做逆文檔頻率。
**逆文檔頻率(nverse Document Frequency,IDF) **是一個(gè)詞語普遍重要性的度量,它的大小與一個(gè)詞的常見程度成反比,計(jì)算方法是語料庫的文檔總數(shù)除以語料庫中包含該詞語的文檔數(shù)量,再將得到的商取對(duì)數(shù)。


idf.png

知道了TF和IDF以后,將這兩個(gè)值相乘,就得到了一個(gè)詞的TF-IDF值。某個(gè)詞對(duì)文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個(gè)詞,就是這篇文章的關(guān)鍵詞。


tf-idf.png

可以看到,TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語言中的出現(xiàn)次數(shù)成反比。所以,自動(dòng)提取關(guān)鍵詞的算法就很清楚了,就是計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。

參考

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 用TF-IDF算法提取關(guān)鍵詞 假設(shè)現(xiàn)在有一篇很長的文章,要從中提取出它的關(guān)鍵字,完全不人工干預(yù),那么怎么做到呢?又...
    Shira0905閱讀 3,747評(píng)論 0 5
  • 想要提取一篇文章的 關(guān)鍵詞 ,最直接的思維方式就是出現(xiàn)的越頻繁的詞就意味著越重要,但停用詞需要除外。一篇文章中出現(xiàn)...
    南極有條沙丁魚閱讀 3,444評(píng)論 0 5
  • http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 假定現(xiàn)在有一...
    data_x閱讀 1,009評(píng)論 1 5
  • 本文利用 scikit-learn 里的樸素貝葉斯算法對(duì)文檔進(jìn)行分類,以便更深入地理解貝葉斯算法。本文的側(cè)重點(diǎn)不是...
    kamidox閱讀 4,818評(píng)論 0 11
  • 這個(gè)系列的第六個(gè)主題,主要談一些搜索引擎相關(guān)的常見技術(shù)。 1995年是搜索引擎商業(yè)公司發(fā)展的重要起點(diǎn),《淺談推薦系...
    我偏笑_NSNirvana閱讀 6,879評(píng)論 3 24

友情鏈接更多精彩內(nèi)容