數(shù)據(jù)準(zhǔn)備方案

一、數(shù)據(jù)檢驗(yàn)

1 主鍵的唯一性

2 樣本完整性。樣本能否代表總體,各變量的分布會(huì)不會(huì)偏離總體太遠(yuǎn)

3 范圍和取值。連續(xù)變量的范圍是否在一定的預(yù)期范圍內(nèi),分類變量的取值是否在取維表里。

4 缺失值。了解缺失值的分布,和原因。

5 錯(cuò)誤值。異常值是指明顯偏離數(shù)據(jù)集的觀測(cè)值,如過(guò)大、 過(guò)小、 負(fù)值等數(shù)據(jù)。 異常值可能是由二記彔錯(cuò)誤引起的,也可能是真實(shí)數(shù)據(jù)。 因此要梱驗(yàn)異常值出現(xiàn)的原因,幵相應(yīng)的處理異常值。

二、樣本選擇

1 正負(fù)樣本比例懸殊(正樣本遠(yuǎn)少于負(fù)樣本),直接使用全量數(shù)據(jù)會(huì)影響最終的模型規(guī)則。一般要通過(guò)正樣本過(guò)采樣,負(fù)樣本正采樣來(lái)解決。

2 海量數(shù)據(jù)建模效率低,如超過(guò)100萬(wàn)條時(shí),每一個(gè)建模步驟都耗時(shí)較長(zhǎng)。一般控制在10-50萬(wàn)條,通過(guò)分層隨機(jī)抽樣,并控制正負(fù)樣本比例。

三、數(shù)據(jù)預(yù)處理

1. 離群值/異常值。A、 將離群值、異常值調(diào)整為距離最近的正常值。例如,如果離群值定義為 3 個(gè)標(biāo)準(zhǔn)差以外,則可用 3 個(gè)標(biāo)準(zhǔn)差的最大值戒最小值替換;B、直接剔除離群值或異常值。C、用空值 NULL 來(lái)替代離群值或異常值。

2. 處理缺失值。A、將缺失值調(diào)整為某個(gè)固定值。 如均值、 中間值戒一個(gè)指定的常數(shù)。B、將缺失值調(diào)整為一個(gè)服從正態(tài)分布的隨機(jī)值。C、若缺失太多且該變量不是很重要,且刪除該變量。

3. 構(gòu)建衍生變量。衍生發(fā)量來(lái)源二原始數(shù)據(jù),有較明確的業(yè)務(wù)涵義。 比如客戶消費(fèi)的環(huán)比、累計(jì)欠費(fèi)次數(shù)等。 這些發(fā)量可能表現(xiàn)出比原始發(fā)量更好的預(yù)測(cè)力,更適應(yīng)二建模。

四、數(shù)據(jù)探索

單個(gè)候選變量及變量之間的統(tǒng)計(jì)特征(包括均值,最值等)及分布。統(tǒng)計(jì)每個(gè)候選預(yù)測(cè)變量的分布及其基本描述統(tǒng)計(jì)量,對(duì)二數(shù)值型變量明確其最大值、最小值、均值、標(biāo)準(zhǔn)差等指標(biāo),對(duì)二分類變量明確各類別的分布。


五、變量選擇

變量選擇的主要目的是尋找對(duì)輸出變量預(yù)測(cè)有積極貢獻(xiàn)的重要變量。 變量的重要性可以從兩個(gè)斱面聯(lián)合考察: 第一,從變量本身考察;第二,從輸入變量與輸出變量的相關(guān)性考察。

第一、從變量本身考察:1.數(shù)值型變量:如果數(shù)值型變量的變異系數(shù)或者標(biāo)準(zhǔn)差小二某個(gè)標(biāo)準(zhǔn)值,則認(rèn)為該變量應(yīng)規(guī)為不重要的發(fā)量;對(duì)二分類型變量而言,如果變量中的某個(gè)值的占比大二 90%,則應(yīng)認(rèn)為該發(fā)量不重要。

第二、從輸入變量與輸出變量的相關(guān)性角度考察。

對(duì)分類變量來(lái)說(shuō),有三種方式。

1.卡方統(tǒng)計(jì)量。2. 信息值? 3.概率比

假設(shè) x 為分類發(fā)量,包含 c 種叏值,x1,……,xc,y 為 2 分發(fā)量,叏值為 1,x 不 y 的列聯(lián)表如下:

1. 卡方統(tǒng)計(jì)量?

2. 信息值?

信息值參考如下:

卡方和信息值的示例如下:

3. 概率值。如果兩個(gè)變量都是二元變量,即列聯(lián)表的一個(gè)特殊情況,可以通過(guò)概率比來(lái)?xiàng)y測(cè)其相關(guān)性。

當(dāng)概率值取值為 1,或從上下兩個(gè)斱向趨近于1 時(shí),可以判斷分類變量 x 相對(duì)于響應(yīng)變量 y 的概率不存在差異,即兩個(gè)變量之間不存在相關(guān)性。

對(duì)數(shù)值型變量來(lái)說(shuō),一方面可以考察輸入變量之間的相關(guān)性,相關(guān)性強(qiáng)的變量只保留一個(gè)。一方面可以考察輸入變量和輸出變量的相關(guān)性,保留相關(guān)性強(qiáng)的輸入變量。相關(guān)性指標(biāo)是皮爾遜相關(guān)系數(shù)。

六、變量分組

1. 定義:變量分組是指把分類變量中的某些類別合并為一組,或者把數(shù)值型變量離散化分為多組。

2.原則:組內(nèi)差異最小,組間差異最大;每個(gè)分段有實(shí)際意義,如30-50分的分組,比28-54的分組有意義;分組數(shù)量不宜過(guò)少,也不宜過(guò)多,過(guò)少信息丟失,過(guò)多信息冗余,建議將數(shù)值型變量分為 4-8 個(gè)組。

3.意義:A 、 提高模型運(yùn)行效率;提升模型精度(尤其是數(shù)值型,例如敏感度跟費(fèi)用的關(guān)系是,敏感度先隨著費(fèi)用的增加和加強(qiáng),到某個(gè)值后隨著費(fèi)用的增加而減弱,如果直接用數(shù)值型變量放入模型,可能會(huì)得出敏感度和費(fèi)用負(fù)相關(guān)的結(jié)論,而分組后的變量可以精確的描述這種關(guān)系); B、 變量分組后,可以以更簡(jiǎn)單的斱法來(lái)處理數(shù)值型發(fā)量的異常值和異常類別。C、分組的目的在二使數(shù)據(jù)規(guī)格化,從而可以實(shí)現(xiàn)不同量級(jí)之間數(shù)據(jù)的比較。

4.分類變量的分組方法。當(dāng)分類變量的類別大于 12 個(gè),或者變量?jī)?nèi)各取值的分布差異較大時(shí),減低基數(shù)就變得非常重要。

1)變量合并:將相同含義的變量合幵,這種斱法的優(yōu)點(diǎn)是,基于各類別變量的含義易于解釋和判斷,但是由于沒(méi)有考慮默認(rèn)的目標(biāo)變量和被合并的類別之間的關(guān)聯(lián)性,可能導(dǎo)致預(yù)測(cè)力降低。

2) 冗余合并:將出現(xiàn)頻率較小的類別合幵為一個(gè)新的類別,并給予一個(gè)合適的標(biāo)識(shí),如“ other”。

3)最優(yōu)分群:另一種分類方法是基于決策樹(shù)模型的分裂找到最優(yōu)的分組方案,通過(guò)合并變量的類別使預(yù)測(cè)力指標(biāo)(皮爾森卡方統(tǒng)計(jì)量、 基尼方差、 熵方差、 信息值等)最大化。以含有 12 個(gè)取值的分類發(fā)量為例,介紹降低基數(shù)的主要思想。首先假設(shè)所有類別都屬于一個(gè)組;然后,基于使某預(yù)測(cè)力指標(biāo)最大的原則找出最優(yōu)的二分割點(diǎn),這樣被選中的分組方案中所有備選分組中的預(yù)測(cè)力指標(biāo)都能達(dá)到最大值;然后在每個(gè)子類別中重復(fù)上一步驟,當(dāng)達(dá)到最大分組個(gè)數(shù)時(shí)停止繼續(xù)分割。

5. 數(shù)值型變量的分組方法:

1)等距分組:數(shù)值型變量的取值范圍被分為預(yù)先確定數(shù)量的等寬度區(qū)間。

2)最優(yōu)分段:數(shù)值型變量的最優(yōu)分段相當(dāng)于分類發(fā)量的最優(yōu)分群。實(shí)際上,最優(yōu)分段和最優(yōu)分群的算法都是基于相同的原理和方法。在數(shù)值型發(fā)量的最優(yōu)分段中,先被分為大量的初始寬度相等的段,比如 100 個(gè)。 然后將這些段看成是名義變量的類,然后再基于分類變量最優(yōu)分群的算法計(jì)算數(shù)值型變量的最優(yōu)分段。然而,在這種情況下,需要在分組中考慮到分段范圍的取值順序,以保持分段變量保持在一個(gè)連續(xù)刻度上。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 注:題中所指的『機(jī)器學(xué)習(xí)』不包括『深度學(xué)習(xí)』。本篇文章以理論推導(dǎo)為主,不涉及代碼實(shí)現(xiàn)。 前些日子定下了未來(lái)三年左右...
    我偏笑_NSNirvana閱讀 40,572評(píng)論 12 145
  • 2017年2月1日,陰天。 早上在床上躺著看了劉敏的一篇文章告訴我們這些動(dòng)物園你千萬(wàn)不能去: 1.只有電網(wǎng)阻隔的動(dòng)...
    良小哲閱讀 298評(píng)論 0 0
  • 格局,百度百科解釋:格是對(duì)認(rèn)知范圍內(nèi)事物認(rèn)知的程度,局是指認(rèn)知范圍內(nèi)所做事情以及事情的結(jié)果,合起來(lái)稱之為格局。 不...
    蝸牛up666閱讀 617評(píng)論 0 1
  • 去年各種機(jī)緣巧合,我參加了“50本書(shū)”讀書(shū)會(huì)。也就是一年里,每個(gè)人都至少要讀完50本書(shū)。我也受邀了讀書(shū)會(huì)邀請(qǐng)做...
    didi_zhang閱讀 1,881評(píng)論 12 57
  • “讓小孩子到我這里來(lái),不要禁止他們,因?yàn)樵谔靽?guó)里,正是他們這樣的人?!? ...
    無(wú)影小豬閱讀 1,141評(píng)論 0 3

友情鏈接更多精彩內(nèi)容