IV值的簡單說明

IV，即information value，中文含義為信息價值，或者說信息量

當現(xiàn)實中，我們進行建模時，不知道哪些自變量對模型有效，會構造幾百個甚至上千個自變量，但這些自變量不會都放入模型進行訓練，而是會使用一些方法，對自變量進行篩選后，再放入模型進行擬合訓練。那么，如何挑選入模變量呢？

入模變量需要考慮的因素：

1、變量的預測能力

2、變量之間的相關性

3、變量的簡單性

4、變量的穩(wěn)健型

5、變量的可解釋性

其中，以變量的預測能力為最主要和最直接的衡量標準。而IV值、信息增益、基尼系數(shù)等都能用來衡量自變量的預測能力。

IV值如何計算？

IV值是在WOE的基礎上計算得出的，我們先來說說WOE是個什么意思～

WOE，全稱Weight of Evidence，即證據(jù)的權重，woe是對原始自變量的一種編碼形式。

首先，需要對自變量進行分組（分bin、離散化等），對不同組別分別計算woe值，其中第i組，WOE的計算公式為：

WOEi=ln(Pyi/Pni)

Pyi為該分組中響應用戶數(shù)占所有響應用戶的比例，Pni為該分組中非響應用戶數(shù)占所有非響應用戶的比例，將公式稍微變形，可知：

WOE也可表示“當前分組中響應用戶與非響應用戶的比值，同整體樣本中響應用戶與非響應用戶的比值差異“。那么WOE越大，這種差異就越大，這個分組中樣本響應的可能性越大。

各分組的IV值可以由WOE計算得到，計算方式為：

該變量的IV值為各組內(nèi)IV值匯總

其中n為組數(shù)

實例介紹：見上方鏈接

常見問題：

1、為什么IV值不用WOE的絕對值匯總，而要乘（pyi-pni）？

若分組后，1組響應用戶與非響應用戶占比的確很顯著，但1組用戶數(shù)只占總用戶數(shù)的1%，這樣的變量其實對整體樣本而言，是沒有多大意義的，因為大部分的用戶不會分到1組，該變量的預測能力并不強

2、IV的極端情況及處理方式？

使用IV其實有一個缺點，就是不能自動處理變量的分組中出現(xiàn)響應比例為0或100%的情況。那么，遇到響應比例為0或者100%的情況，我們應該怎么做呢？建議如下：

（1）如果可能，直接把這個分組做成一個規(guī)則，作為模型的前置條件或補充條件；

（2）重新對變量進行離散化或分組，使每個分組的響應比例都不為0且不為100%，尤其是當一個分組個體數(shù)很小時（比如小于100個），強烈建議這樣做，因為本身把一個分組個體數(shù)弄得很小就不是太合理。

（3）如果上面兩種方法都無法使用，建議人工把該分組的響應數(shù)和非響應的數(shù)量進行一定的調(diào)整。如果響應數(shù)原本為0，可以人工調(diào)整響應數(shù)為1，如果非響應數(shù)原本為0，可以人工調(diào)整非響應數(shù)為1.

學習自http://www.itdecent.cn/p/3a7cb26ca268

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

初識IV值、WOE

初識IV值、WOE

IV值的簡單說明

IV值如何計算？

常見問題：

1、為什么IV值不用WOE的絕對值匯總，而要乘（pyi-pni）？

2、IV的極端情況及處理方式？

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

初識IV值、WOE

IV值的簡單說明

IV值如何計算？

常見問題：

1、為什么IV值不用WOE的絕對值匯總，而要乘（pyi-pni）？

2、IV的極端情況及處理方式？

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

初識IV值、WOE

IV值如何計算？

1、為什么IV值不用WOE的絕對值匯總，而要乘（pyi-pni）？

2、IV的極端情況及處理方式？