校驗二分類特征相關(guān)性

image.png
1.1 統(tǒng)計樣本集中文檔總數(shù)(N)。
1.2 統(tǒng)計每個詞的正文檔出現(xiàn)頻率(A)、負(fù)文檔出現(xiàn)頻率(B)、正文檔不出現(xiàn)頻率)、負(fù)文檔不出現(xiàn)頻率。
1.3 計算每個詞的卡方值,公式如下:

卡方公式
1.4 將每個詞按卡方值從大到小排序,選取前k個詞作為特征,k即特征維數(shù)。
在文本分類的特征選擇階段中,我們主要關(guān)心一個問題:詞條t與類別C是否相互獨立
1)相互獨立,說明詞條t對類別c完全沒有表征能
2)不獨立,說明詞條t對類別c有一定的表征能力
卡方檢驗的缺點是:它只統(tǒng)計文檔是否出現(xiàn)詞,而不管出現(xiàn)了幾次。這會使得他對低頻詞有所偏袒(因為它夸大了低頻詞的作用)。
多分類中也是能夠運(yùn)用卡方校驗進(jìn)行特征選擇

image.png
式中n為總例數(shù);A為各觀察值;nR和nC為與各A值相應(yīng)的行和列合計的總數(shù)。
參考博客
[ https://www.cnblogs.com/liyongzhao/articles/3369117.html ]