IV值的簡單說明
IV,即information value,中文含義為信息價值,或者說信息量
當現(xiàn)實中,我們進行建模時,不知道哪些自變量對模型有效,會構造幾百個甚至上千個自變量,但這些自變量不會都放入模型進行訓練,而是會使用一些方法,對自變量進行篩選后,再放入模型進行擬合訓練。那么,如何挑選入模變量呢?
入模變量需要考慮的因素:
1、變量的預測能力
2、變量之間的相關性
3、變量的簡單性
4、變量的穩(wěn)健型
5、變量的可解釋性
其中,以變量的預測能力為最主要和最直接的衡量標準。而IV值、信息增益、基尼系數(shù)等都能用來衡量自變量的預測能力。
IV值如何計算?
IV值是在WOE的基礎上計算得出的,我們先來說說WOE是個什么意思~
WOE,全稱Weight of Evidence,即證據(jù)的權重,woe是對原始自變量的一種編碼形式。
首先,需要對自變量進行分組(分bin、離散化等),對不同組別分別計算woe值,其中第i組,WOE的計算公式為:
WOEi=ln(Pyi/Pni)
Pyi為該分組中響應用戶數(shù)占所有響應用戶的比例,Pni為該分組中非響應用戶數(shù)占所有非響應用戶的比例,將公式稍微變形,可知:
WOE也可表示“當前分組中響應用戶與非響應用戶的比值,同整體樣本中響應用戶與非響應用戶的比值差異“。那么WOE越大,這種差異就越大,這個分組中樣本響應的可能性越大。
各分組的IV值可以由WOE計算得到,計算方式為:
該變量的IV值為各組內(nèi)IV值匯總
其中n為組數(shù)
實例介紹:見上方鏈接
常見問題:
1、為什么IV值不用WOE的絕對值匯總,而要乘(pyi-pni)?
若分組后,1組響應用戶與非響應用戶占比的確很顯著,但1組用戶數(shù)只占總用戶數(shù)的1%,這樣的變量其實對整體樣本而言,是沒有多大意義的,因為大部分的用戶不會分到1組,該變量的預測能力并不強
2、IV的極端情況及處理方式?
使用IV其實有一個缺點,就是不能自動處理變量的分組中出現(xiàn)響應比例為0或100%的情況。那么,遇到響應比例為0或者100%的情況,我們應該怎么做呢?建議如下:
(1)如果可能,直接把這個分組做成一個規(guī)則,作為模型的前置條件或補充條件;
(2)重新對變量進行離散化或分組,使每個分組的響應比例都不為0且不為100%,尤其是當一個分組個體數(shù)很小時(比如小于100個),強烈建議這樣做,因為本身把一個分組個體數(shù)弄得很小就不是太合理。
(3)如果上面兩種方法都無法使用,建議人工把該分組的響應數(shù)和非響應的數(shù)量進行一定的調(diào)整。如果響應數(shù)原本為0,可以人工調(diào)整響應數(shù)為1,如果非響應數(shù)原本為0,可以人工調(diào)整非響應數(shù)為1.