初識IV值、WOE

IV值的簡單說明

IV,即information value,中文含義為信息價值,或者說信息量

當現(xiàn)實中,我們進行建模時,不知道哪些自變量對模型有效,會構造幾百個甚至上千個自變量,但這些自變量不會都放入模型進行訓練,而是會使用一些方法,對自變量進行篩選后,再放入模型進行擬合訓練。那么,如何挑選入模變量呢?

入模變量需要考慮的因素:

1、變量的預測能力

2、變量之間的相關性

3、變量的簡單性

4、變量的穩(wěn)健型

5、變量的可解釋性

其中,以變量的預測能力為最主要和最直接的衡量標準。而IV值、信息增益、基尼系數(shù)等都能用來衡量自變量的預測能力。

IV值如何計算?

IV值是在WOE的基礎上計算得出的,我們先來說說WOE是個什么意思~

WOE,全稱Weight of Evidence,即證據(jù)的權重,woe是對原始自變量的一種編碼形式。

首先,需要對自變量進行分組(分bin、離散化等),對不同組別分別計算woe值,其中第i組,WOE的計算公式為:

WOEi=ln(Pyi/Pni)

Pyi為該分組中響應用戶數(shù)占所有響應用戶的比例,Pni為該分組中非響應用戶數(shù)占所有非響應用戶的比例,將公式稍微變形,可知:

WOE也可表示“當前分組中響應用戶與非響應用戶的比值,同整體樣本中響應用戶與非響應用戶的比值差異“。那么WOE越大,這種差異就越大,這個分組中樣本響應的可能性越大。

各分組的IV值可以由WOE計算得到,計算方式為:

該變量的IV值為各組內(nèi)IV值匯總

其中n為組數(shù)

實例介紹:見上方鏈接

常見問題:

1、為什么IV值不用WOE的絕對值匯總,而要乘(pyi-pni)?

若分組后,1組響應用戶與非響應用戶占比的確很顯著,但1組用戶數(shù)只占總用戶數(shù)的1%,這樣的變量其實對整體樣本而言,是沒有多大意義的,因為大部分的用戶不會分到1組,該變量的預測能力并不強

2、IV的極端情況及處理方式?

使用IV其實有一個缺點,就是不能自動處理變量的分組中出現(xiàn)響應比例為0或100%的情況。那么,遇到響應比例為0或者100%的情況,我們應該怎么做呢?建議如下:

(1)如果可能,直接把這個分組做成一個規(guī)則,作為模型的前置條件或補充條件;

(2)重新對變量進行離散化或分組,使每個分組的響應比例都不為0且不為100%,尤其是當一個分組個體數(shù)很小時(比如小于100個),強烈建議這樣做,因為本身把一個分組個體數(shù)弄得很小就不是太合理。

(3)如果上面兩種方法都無法使用,建議人工把該分組的響應數(shù)和非響應的數(shù)量進行一定的調(diào)整。如果響應數(shù)原本為0,可以人工調(diào)整響應數(shù)為1,如果非響應數(shù)原本為0,可以人工調(diào)整非響應數(shù)為1.

學習自http://www.itdecent.cn/p/3a7cb26ca268

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容