評分卡|分類學習器的評估


信用評分卡主要有三種(A卡、B卡、C卡):

  • A卡:申請評分卡,側(cè)重貸前,在客戶獲取期,建立信用風險評分,預測客戶帶來違約風險的概率大小;
  • B卡:行為評分卡,側(cè)重貸中,在客戶申請?zhí)幚砥冢⑸暾堬L險評分模型,預測客戶開戶后一定時期內(nèi)違約拖欠的風險概率,有效排除了信用不良客戶和非目標客戶的申請;
  • C卡:催收評分卡,側(cè)重貸后,在帳戶管理期,建立催收評分模型,對逾期帳戶預測催收策略反應的概率,從而采取相應的催收措施。

簡單來講,評分卡用分數(shù)來預測客戶的好壞。當一個評分卡已經(jīng)構(gòu)建完成,并且有一組個人分數(shù)和其對應的好壞狀態(tài)的數(shù)據(jù)時,我們想知道所構(gòu)建的評分卡是否可靠?可靠程度如何?而這取決于如何去定義這個“好”字。一般有三種角度可以來評估:

  • 評分卡分類劃分的準確程度,如錯誤率、準確率、召回率、F1
  • 評分卡的判別能力,評估評分卡將好人和壞人分離開的程度,如KS統(tǒng)計量、ROC曲線、GINI系數(shù)
  • 評分卡概率預測的校準精度

令s是分類學習器預測的結(jié)果,可以是好人壞人這樣的類別,也可以是一個概率值,大于多少才進一步判定為壞人,還可以是一個信用評分,大于多少才進一步判定為好人。至于是哪種跟我們選用的模型有關(guān),不過目前邏輯回歸和隨機森林等都支持輸出概率值或者信用評分。

從測度論的角度來看,模型評估的是預測變量和實際變量之間的相似度或距離。在這塊有很多的指標,有統(tǒng)計檢驗的,有信息論的,也有概率論的,每個指標都有其優(yōu)劣和適用場景。

因為是分類器,所以實際分類變量比較簡單,肯定是因子型的離散變量,在評分卡中其分布就是pG 和pB。而預測變量的類型就不確定,不過沒關(guān)系,我們統(tǒng)一考慮它的密度函數(shù)f(s)和分布函數(shù)F(s)。

當預測變量的閾值選好后,即每一個樣本都被預測了,這時候預測變量也變成了與實際類別變量相同的離散變量,則預測類別變量和實際類別變量的混淆矩陣為:

實際壞人 實際好人
預測壞人 TP(真正例) FP(假反例)
預測好人 FN(假正例) TN(真反例)

要注意的是,此時預測變量雖然是離散的,但我們?nèi)匀豢梢杂酶怕蕘肀硎净煜仃?。設(shè)樣本數(shù)為N,f(s|G)和f(s|B)分別為好人和壞人的條件密度函數(shù),nG和nB分別表示總體中好人和壞人的數(shù)量,則上述的混淆矩陣可以表示為:

實際壞人 實際好人
預測壞人 p(s ∈ 壞人|B) nB p(s ∈ 壞人|G) nG
預測好人 p(s ∈ 好人|B) nB p(s ∈ 好人|G) nG
總體 nB nG

接下來我們就可以定義和分析各種距離/指標啦。

1、分類學習器的性能度量

性能度量反映了任務(wù)需求,在對比不同的模型能力時,使用不同的性能度量往往會導致不同的評判結(jié)果;這意味者模型的“好壞”是相對的,什么樣的模型是好的,不僅取決于算法和數(shù)據(jù),還決定于任務(wù)需求。

在預測任務(wù)中,給定樣例集

,其中 yi 是示例 xi 的真實標記。要評估學習期f的性能,就要把學習器預測結(jié)果f(x)與真實標記進行比較。

在回歸任務(wù)中,最常用的性能度量是“均方誤差”(mean squared eror,MSE)

在分類任務(wù)中,最常用的有錯誤率和精度。給定樣例集D,分類錯誤率可以定義為:

精度則定義為

1.1 準確率、召回率與F1

假定農(nóng)夫拉來一車西瓜,我們用訓練好的模型對這些西瓜進行判別,顯然,錯誤率衡量了有多少比例的瓜被判別錯誤。但是若我們關(guān)心的是“挑出的西瓜中有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑了出來”,那么錯誤率顯然就不夠用了。

對于二分類問題,可將樣本根據(jù)其真實類別與學習器預測類別的組合劃分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四種情形。分類結(jié)果的“混淆矩陣”如下表所示:

預測正例 預測反例
實際正例 TP(真正例) FN(假反例)
實際反例 FP(假正例) TN(真反例)

我們將準確率(查準率)召回率(查全率)分別定義如下:

準確率和召回率是一對矛盾的度量。在垃圾郵件分類模型中,我們更加看重準確率,因為預測為垃圾郵件的實例中要盡可能少的出現(xiàn)正常郵件。而在生產(chǎn)線的次品判定模型中,我們更看重召回率,因為預測是正品的實例中要盡可能少的出現(xiàn)次品(這樣需要召回的商品就少)。

將準確率作為y軸,召回率作為x軸,可以得到P-R曲線,其直觀顯示出分類學習期在樣本集上的準確率、召回率。另外為綜合考慮兩個指標,我們有P和R的調(diào)和平均數(shù),F1度量

有時候要調(diào)整準確率或者召回率的權(quán)重,這時候可以用加權(quán)后的F1度量
其中β>0度量了召回率相對準確率的重要性,β>1時召回率有更大影響。

注:相對于幾何平均數(shù)和算術(shù)平均數(shù),調(diào)和平均數(shù)更注重較小者,且當各平均數(shù)相等時,調(diào)和平均數(shù)對應的P和R之間的差值相對更小。

在第三節(jié)中,我們還會介紹ROC曲線,其也是一種很好的性能度量。

1.2 代價敏感錯誤率與代價曲線

以二分類任務(wù)為例,我們可以設(shè)定一個“代價矩陣”。

預測正例 預測反例
實際正例 0 cost1
實際反例 cost2 0

令D+與D-分別代表樣例集D的正例子集和反例子集,則可以定義“代價敏感錯誤率為”:

1.3 信息熵、條件熵、互信息

  • :隨機變量X的熵被定義為:
    其中p(x)=Pr(X=x)是X的密度函數(shù)。熵度量了隨機變量X的不確定性程度,如8種均勻可能需要log28=3個字節(jié)來存儲。
如果實際類別變量中,好人的占比為80%,壞人的占比為20%,則實際類別變量的熵為:
H(Y)=-(0.8log0.8+0.2log0.2)=0.72
  • 聯(lián)合熵條件熵
    兩個隨機變量的聯(lián)合熵被定義為:

    條件熵被定義為:
    另外可以證明:

  • 相對熵(K-L散度):相對熵是兩個隨機分布之間距離的度量。在統(tǒng)計學中,它對應的是似然比的對數(shù)期望。相對上D(p||q)度量當真實分布為p而假定分布為q時的無效性。

    相對熵總是非負的,注意到其并不對程,也不滿足三角不等式,所以嚴格來講,它并不能稱為“距離”,所以實際使用中,我們可以作對稱化處理:
    K-L散度是一個非常不錯的“距離”,在下一節(jié)我們還會繼續(xù)講這個指標,但是要注意K-L散度是無界的。

  • 互信息(信息增益):互信息是一個隨機變量包含另一個隨機變量信息量的度量,也是在給定另一隨機變量知識的條件下,原隨機變量不確定度的縮減量。

    注意到互信息(信息增益)關(guān)于X和Y是對稱的,即H(X)-H(X|Y)=H(Y)-H(Y|X)。而且它與相對熵存在如下等價關(guān)系:
    從該等價式可以看出,當X和Y之間幾乎相互獨立,即相互所包含的信息很少時,聯(lián)合分布p(x,y)與乘積分布p(x)p(y)之間的K-L距離相應的也很小。

  • 交叉熵:假設(shè)已知隨機變量的真實分布為p,預測分布為q,可以構(gòu)造平均描述長度為H(p)的碼。但是如果使用分布q的編碼,那么在平均意義上就需要H(p) + D(p||q)比特來描述這個隨機變量。


    也就是說交叉熵度量了從q到p還需要的信息量。交叉熵常用作部分分類模型(如邏輯回歸算法)的損失函數(shù)(參考文章)

1.4 卡方距離

設(shè)N為樣本數(shù),fo和fe分別為觀察頻數(shù)和期望頻數(shù):

卡方距離(卡方統(tǒng)計量)可以定義為:

注意到上式的最右邊等價于:

而fo/N可以看成是聯(lián)合分布的概率,fe/N可以看成是乘積分布的概率,又

所有我們有

從這個角度來看,卡方距離是互信息和相對熵結(jié)合下的一種近似。

1.5 方差分析、F-score

方差分析可以度量分組之間的期望差異


還沒想好和測度之間的聯(lián)系,待續(xù)。。。。

2、性能度量的實驗估計方法

一個分類學習器最主要的目的在于預測新樣本,所以更多的應該考慮它的泛化誤差。無論是哪種評價指標,我們都應該應用在不同于訓練樣本之外的數(shù)據(jù)集上。

選擇一個能在一定評判準則L下達到最優(yōu)的函數(shù):可以是使然函數(shù),也可以是MSE,還可以是F1值、散度等各種評估指標。再選擇一個評分函數(shù)s_D()使得:

我們需要找到在樣本上使得測量指標最大化的分類學習器。為了得到無偏估計,我們必須考察其在保留樣本或檢驗樣本V上的表現(xiàn)。通常我們會有足夠充分的數(shù)據(jù)建立分類學習器,能夠?qū)?shù)據(jù)分成訓練樣本和檢驗樣本。否則,我們只能用一些標準的統(tǒng)計學習方法如交叉驗證或bootstrap法來獲得無偏估計。

注:當樣本不足夠充分時,D只能當成總體的一個抽樣。此時通過交叉驗證或者bootstrap法可以有效降低模型的泛化方差,同時也能充分利用好每一個數(shù)據(jù),畢竟都來之不易。

2.1 留出法

''留出法''將數(shù)據(jù)集D劃分成兩部分,一部分為訓練集:train_set,另一部分為測試集:test_set. 測試集不參與模型的訓練,僅用于計算模型的泛化誤差。一般來講,訓練集的占比為2/3-4/5.
留出法常用于比較多個分類模型的泛化誤差能力,當我們要更好的估計單個分類模型的泛化誤差時,特殊的,可以用"留一法"。即建立|D|個分類模型,其中每一個分類模型的測試集僅有一個。

2.2 交叉驗證法

如k-fold,形成k個模型,將模型的平均值作為最終的分類結(jié)果

交叉驗證的誤差估計
交叉驗證的誤差估計

2.3 bootstrap法

每次有放回的抽樣|D|個樣本,這樣大概有

的樣本不會被抽中,可以將他們作為測試集。

bootstrap法的誤差估計
bootstrap法的誤差估計

考慮到只有0.632的樣本用于測量誤差,我們有一個更穩(wěn)定的誤差估計:

一個更穩(wěn)定的的誤差估計
一個更穩(wěn)定的的誤差估計

3、判別能力的測量

這一節(jié)我們來判定評分卡區(qū)分好人和壞人的能力。需要清楚的是,這個判別能力并不是指概率閾值的選取問題,它評估的是評分卡是否能很明顯的把好人和壞人區(qū)分開來,常用于判定單個評分卡是否滿足實用要求或者從多個評分卡中選取判定能力最好的那個。

給定評分分數(shù)s或者評定概率,令f(s|G)、f(s|B)分別為好人與壞人子群體分數(shù)的條件概率密度函數(shù)(對應的F(s|G)、F(s|B)為分布函數(shù))接下來的統(tǒng)計量將都是從概率的角度出發(fā)。

(a)好人、壞人均值相差很大,(b)好人、壞人均值相差不大

3.1 馬氏距離

馬氏量比較簡單,它就是兩個概率密度函數(shù)的眾數(shù)之差/標準差

當好人和壞人的分布是正態(tài)分布且方差相等時,有

3.2 信息比率、K-L散度和信息量

如果想考察預測變量區(qū)分好壞借款人的表現(xiàn),我們可以用兩個分布的期望之差:

然而這個差并沒有考慮到某些s值的信息量遠高于其他的情況,于是我們可以用WOE來替換s:
這被稱為對稱化后的K-L散度(Kullback–Leibler divergence),也等價于相對熵。常用于度量兩個分布之間的距離。

一般情況 s 往往不是連續(xù)的,這時候我們可以把分數(shù)劃分成很多個小區(qū)間來近似散度。假定有I個區(qū)間,每個區(qū)間i中有好人 gi 個、壞人 bi 個,且總共有 nG 個好人和 nB 個壞人。則我們用 gi / nG代替f(s|G),于是散度可以近似為(信息量,IV):

注意到上式并不是真正的K-L散度,設(shè)p和q是在x上的兩個分布,則我們定義p和q的K-L散度(相對熵)為:

此時它關(guān)于p和q不對成,而上式就相當于:
為對稱化,我們還有另外一種改進方式:JS散度(Jensen-Shannon)

3.3 其他概率分布距離

K-L散度的壞處在于它是無界的。事實上K-L散度 屬于更廣泛的 f-divergence 中的一種。如果p和q被定義成空間中的兩個概率分布,則 f 散度被定義為:

很多常見的散度,例如KL-divergence、Hellinger distance、和 total variation distance都是特殊的f-divergence。下表給出了它們的對應函數(shù)關(guān)系:

這其中常用的有:

  • 卡方散度(f(t)=(t-1)2):

    這正好是卡方值,其中p(x)和q(x)分別是觀察頻數(shù)分布和期望頻數(shù)分布。

  • Hellinger distance( f(t)=(t1/2-1)2 ):

    用測度論來看,它就是

  • Total variation distance( f(t)=|t-1|/2 ):

除了f-divergence,還有一些不錯的距離:

  • 巴氏距離(Bhattacharyya Distance):

    仔細觀察,會發(fā)現(xiàn),相對于Hellinger distance,Bhattacharyya Distance就是用ln(x) 替換x-1而已

  • MMD距離(Maximum mean discrepancy)
    最大均值差異(Maximum mean discrepancy),度量在再生希爾伯特空間中兩個分布的距離,是一種核學習方法。兩個隨機變量的距離為

  • Wasserstein distance

3.4 KS統(tǒng)計量

散度與其相關(guān)的統(tǒng)計量都是為了測量好人分數(shù)函數(shù)和壞人分數(shù)函數(shù)期望值之間的差異。第二類判別能力的測量方法則強調(diào)這兩類分數(shù)分布函數(shù)的差異。

我們將KS統(tǒng)計量定義如下:


KS統(tǒng)計量

KS值反映的判別能力沒有一個確定的標準,經(jīng)驗上KS統(tǒng)計量至少要等于0.4才反應一個較好的判別能力。

KS統(tǒng)計量的缺點在于它描述的是在“最優(yōu)區(qū)分分數(shù)”下的情形,但商業(yè)決策中需要一個相關(guān)或合適的臨界分數(shù)。我們只能理解成,實際臨界分數(shù)處的條件分布的距離比KS統(tǒng)計量小,換句話說,KS統(tǒng)計量僅是好壞距離或區(qū)分度的上限。

3.5 ROC曲線

信用評分中最常用的判別能力的度量工具是ROC(Receiver Operating Characteristic)曲線和與之很相似的CAP(Cumulative Accuracy profile)曲線。這些曲線下方的區(qū)域引出了兩種判別能力的度量:Gini系數(shù)和準確率AR。

ROC曲線是好人條件分數(shù)相對于壞人條件分數(shù)的累計分布的圖形。如下圖,x軸代表

的值,y軸代表
的值。如果一個模型的判別能力完美,那么存在一個分數(shù)s_B,大于所有壞人分數(shù)且小于所有好人分數(shù)。此時ROC曲線會經(jīng)過B點,即下圖中的點(0,1)。在另一種極端情形下,如果評分卡并不比隨機方式更好(也就是在每一個分數(shù)點上,低于這個分數(shù)的比例與好人比例相同),那么
ROC曲線

注:在很多機器學習的書中,ROC曲線是通過混淆矩陣來定義的,本質(zhì)上與上述定義是等價的。給定一個判定分數(shù)s,當分數(shù)大于s時,模型判定為好人,當分數(shù)小于s*時,模型判定為壞人。這樣真正率(正樣本預測為正的比例,此時壞人是正樣本)TPR=F(s|B),假正率(負樣本預測為正)FPR=F(s|G)。且用概率表示的混淆矩陣如下:

ROC曲線下的面積(Area under the ROC curve,簡稱AUROC或者AUC)可評價判別能力的大小。一般評分卡的AUROC通常介于0.5~1之間,且面積越大,判別能力越好。

AUROC
AUROC

我們更傾向于用范圍0到1來標準化測量結(jié)果,0代表完全隨機,1代表完美隨機能力。此時我們可以將AUROC轉(zhuǎn)換成Gini系數(shù),其等于ROC曲線與對角線之間面積的兩倍。

GINI系數(shù)
GINI系數(shù)

每個分數(shù)在ROC曲線上的點(F(s|G),F(xiàn)(s|B)),該點垂直投射到對角線上的點的橫縱坐標相等。所以曲線上這點的垂直距離變成了|F(s|G)-F(s|B)|。很明顯,KS統(tǒng)計量就是這個最大距離的最大值,而Gini系數(shù)是這個距離在整個曲線上積分的兩倍,因此GINI<2KS。

另外可以證明GINI>KS,如果進一步放縮GINI系數(shù),還可以證明GINI<2KS-(KS)2,于是我們有:

GINI系數(shù)估計不等式
GINI系數(shù)估計不等式

注:ROC曲線的繪制

在畫ROC曲線和計算Gini系數(shù)時,分值大小并不重要,真正重要的是這些人分數(shù)的相對排序。將分數(shù)按升序排列,得到BGBBGGBGGG·······。依次將前n個樣本預測為B即可得到ROC曲線。

3.6 CAP曲線

在市場營銷文獻中,有一個和ROC曲線很類似的方法叫做累積準確性(cumulative accuracy profile,CAP),或者成為提升曲線(lift curve)。與ROC曲線不同,它的橫縱坐標不是F(s|G)和F(s|B),而是F(s)和F(s|B)。所以橫坐標表示的是總體被拒絕的比例,縱坐標表示好人被拒絕的比例。

完美判別評分卡的CAP曲線會經(jīng)過B(pB,1)點,其中 pB 是總體中壞人的比例。

就像ROC曲線和Gini系數(shù)一樣,曲線到對角線的面積與完美判別到隨機判別面積的比例可以整合CAP曲線包含的信息。這個比例成為準確率(accuracy rate,AR)

可以證明AR=GINI,但兩個曲線并不一樣。ROC曲線不需要指導原始總體的分布,而只看評分卡本身。但CAP曲線包含了總體的信息,隨總體變化而變化。

注:可用數(shù)據(jù)集:
UCI澳大利亞信用卡數(shù)據(jù)、UCI德國信用卡數(shù)據(jù)LendingClub數(shù)據(jù)集

操盤過程見文章:評分卡實踐(先挖坑,待續(xù))

參考文獻

[1]. 機器學習之分類性能度量指標 : ROC曲線、AUC值、正確率、召回率
[2]. 消費信用模型:定價、利潤與組合
[3]. 機器學習
[4]. 統(tǒng)計學習方法
[5]. 評分卡模型構(gòu)建介紹
[6]. 信用評分的簡單小結(jié)(ROC,IV,WOE)
[7]. 利用LendingClub數(shù)據(jù)建模
[8]. 知乎:分布的相似度(距離)用什么模型比較好?
[9] 概率分布之間的距離度量以及python實現(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容