卡方校驗

校驗二分類特征相關(guān)性

image.png

1.1 統(tǒng)計樣本集中文檔總數(shù)(N)。

1.2 統(tǒng)計每個詞的正文檔出現(xiàn)頻率(A)、負(fù)文檔出現(xiàn)頻率(B)、正文檔不出現(xiàn)頻率)、負(fù)文檔不出現(xiàn)頻率。

1.3 計算每個詞的卡方值,公式如下:

卡方公式

1.4 將每個詞按卡方值從大到小排序,選取前k個詞作為特征,k即特征維數(shù)。

在文本分類的特征選擇階段中,我們主要關(guān)心一個問題:詞條t與類別C是否相互獨立
1)相互獨立,說明詞條t對類別c完全沒有表征能
2)不獨立,說明詞條t對類別c有一定的表征能力

卡方檢驗的缺點是:它只統(tǒng)計文檔是否出現(xiàn)詞,而不管出現(xiàn)了幾次。這會使得他對低頻詞有所偏袒(因為它夸大了低頻詞的作用)。

多分類中也是能夠運(yùn)用卡方校驗進(jìn)行特征選擇

image.png

式中n為總例數(shù);A為各觀察值;nR和nC為與各A值相應(yīng)的行和列合計的總數(shù)。

參考博客
[ https://www.cnblogs.com/liyongzhao/articles/3369117.html ]

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容