概念
詞頻-逆文檔頻度(Term Frequency - Inverse Document Frequency,TF-IDF)技術(shù),是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),可以用來評(píng)估一個(gè)詞對(duì)于一個(gè)文檔集或語料庫中某個(gè)文檔的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加 ,但同時(shí)會(huì) 隨著它在語料庫中出現(xiàn)的頻率成反比下降 。如果某個(gè)詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞。
原理
以統(tǒng)計(jì)一篇文檔的關(guān)鍵詞為例,最簡單的方法就是計(jì)算每個(gè)詞的詞頻。
詞頻 (term frequency, TF)指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的次數(shù)。

出現(xiàn)頻率最高的詞就是這篇文檔的關(guān)鍵詞。但是一篇文章中出現(xiàn)頻率最高的詞肯定是“的”、‘是’、‘也’……這樣的詞,這些詞顯然不能反應(yīng)文章的意思,此時(shí)就需要對(duì)每個(gè)詞加一個(gè)權(quán)重,最常見的詞("的"、"是"、"在")給予最小的權(quán)重,較少見的但能反應(yīng)這篇文章意思的詞給予較大的權(quán)重,這個(gè)權(quán)重叫做逆文檔頻率。
**逆文檔頻率(nverse Document Frequency,IDF) **是一個(gè)詞語普遍重要性的度量,它的大小與一個(gè)詞的常見程度成反比,計(jì)算方法是語料庫的文檔總數(shù)除以語料庫中包含該詞語的文檔數(shù)量,再將得到的商取對(duì)數(shù)。

知道了TF和IDF以后,將這兩個(gè)值相乘,就得到了一個(gè)詞的TF-IDF值。某個(gè)詞對(duì)文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個(gè)詞,就是這篇文章的關(guān)鍵詞。

可以看到,TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個(gè)語言中的出現(xiàn)次數(shù)成反比。所以,自動(dòng)提取關(guān)鍵詞的算法就很清楚了,就是計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。