一、數(shù)據(jù)檢驗(yàn)

1 主鍵的唯一性

2 樣本完整性。樣本能否代表總體，各變量的分布會(huì)不會(huì)偏離總體太遠(yuǎn)

3 范圍和取值。連續(xù)變量的范圍是否在一定的預(yù)期范圍內(nèi)，分類變量的取值是否在取維表里。

4 缺失值。了解缺失值的分布，和原因。

5 錯(cuò)誤值。異常值是指明顯偏離數(shù)據(jù)集的觀測(cè)值，如過(guò)大、過(guò)小、負(fù)值等數(shù)據(jù)。異常值可能是由二記彔錯(cuò)誤引起的，也可能是真實(shí)數(shù)據(jù)。因此要梱驗(yàn)異常值出現(xiàn)的原因，幵相應(yīng)的處理異常值。

二、樣本選擇

1 正負(fù)樣本比例懸殊（正樣本遠(yuǎn)少于負(fù)樣本），直接使用全量數(shù)據(jù)會(huì)影響最終的模型規(guī)則。一般要通過(guò)正樣本過(guò)采樣，負(fù)樣本正采樣來(lái)解決。

2 海量數(shù)據(jù)建模效率低，如超過(guò)100萬(wàn)條時(shí)，每一個(gè)建模步驟都耗時(shí)較長(zhǎng)。一般控制在10-50萬(wàn)條，通過(guò)分層隨機(jī)抽樣，并控制正負(fù)樣本比例。

三、數(shù)據(jù)預(yù)處理

1. 離群值/異常值。A、將離群值、異常值調(diào)整為距離最近的正常值。例如，如果離群值定義為 3 個(gè)標(biāo)準(zhǔn)差以外，則可用 3 個(gè)標(biāo)準(zhǔn)差的最大值戒最小值替換；B、直接剔除離群值或異常值。C、用空值 NULL 來(lái)替代離群值或異常值。

2. 處理缺失值。A、將缺失值調(diào)整為某個(gè)固定值。如均值、中間值戒一個(gè)指定的常數(shù)。B、將缺失值調(diào)整為一個(gè)服從正態(tài)分布的隨機(jī)值。C、若缺失太多且該變量不是很重要，且刪除該變量。

3. 構(gòu)建衍生變量。衍生發(fā)量來(lái)源二原始數(shù)據(jù)，有較明確的業(yè)務(wù)涵義。比如客戶消費(fèi)的環(huán)比、累計(jì)欠費(fèi)次數(shù)等。這些發(fā)量可能表現(xiàn)出比原始發(fā)量更好的預(yù)測(cè)力，更適應(yīng)二建模。

四、數(shù)據(jù)探索

單個(gè)候選變量及變量之間的統(tǒng)計(jì)特征（包括均值，最值等）及分布。統(tǒng)計(jì)每個(gè)候選預(yù)測(cè)變量的分布及其基本描述統(tǒng)計(jì)量，對(duì)二數(shù)值型變量明確其最大值、最小值、均值、標(biāo)準(zhǔn)差等指標(biāo)，對(duì)二分類變量明確各類別的分布。

五、變量選擇

變量選擇的主要目的是尋找對(duì)輸出變量預(yù)測(cè)有積極貢獻(xiàn)的重要變量。變量的重要性可以從兩個(gè)斱面聯(lián)合考察：第一，從變量本身考察；第二，從輸入變量與輸出變量的相關(guān)性考察。

第一、從變量本身考察：1.數(shù)值型變量：如果數(shù)值型變量的變異系數(shù)或者標(biāo)準(zhǔn)差小二某個(gè)標(biāo)準(zhǔn)值，則認(rèn)為該變量應(yīng)規(guī)為不重要的發(fā)量；對(duì)二分類型變量而言，如果變量中的某個(gè)值的占比大二 90%，則應(yīng)認(rèn)為該發(fā)量不重要。

第二、從輸入變量與輸出變量的相關(guān)性角度考察。

對(duì)分類變量來(lái)說(shuō)，有三種方式。

1.卡方統(tǒng)計(jì)量。2. 信息值? 3.概率比

假設(shè) x 為分類發(fā)量，包含 c 種叏值，x1，……，xc，y 為 2 分發(fā)量，叏值為 1，x 不 y 的列聯(lián)表如下：

1. 卡方統(tǒng)計(jì)量?

2. 信息值?

信息值參考如下：

卡方和信息值的示例如下：

3. 概率值。如果兩個(gè)變量都是二元變量，即列聯(lián)表的一個(gè)特殊情況，可以通過(guò)概率比來(lái)?xiàng)y測(cè)其相關(guān)性。

當(dāng)概率值取值為 1,或從上下兩個(gè)斱向趨近于1 時(shí)，可以判斷分類變量 x 相對(duì)于響應(yīng)變量 y 的概率不存在差異，即兩個(gè)變量之間不存在相關(guān)性。

對(duì)數(shù)值型變量來(lái)說(shuō)，一方面可以考察輸入變量之間的相關(guān)性，相關(guān)性強(qiáng)的變量只保留一個(gè)。一方面可以考察輸入變量和輸出變量的相關(guān)性，保留相關(guān)性強(qiáng)的輸入變量。相關(guān)性指標(biāo)是皮爾遜相關(guān)系數(shù)。

六、變量分組

1. 定義：變量分組是指把分類變量中的某些類別合并為一組，或者把數(shù)值型變量離散化分為多組。

2.原則：組內(nèi)差異最小，組間差異最大；每個(gè)分段有實(shí)際意義，如30-50分的分組，比28-54的分組有意義；分組數(shù)量不宜過(guò)少，也不宜過(guò)多，過(guò)少信息丟失，過(guò)多信息冗余，建議將數(shù)值型變量分為 4-8 個(gè)組。

3.意義：A 、提高模型運(yùn)行效率；提升模型精度（尤其是數(shù)值型，例如敏感度跟費(fèi)用的關(guān)系是，敏感度先隨著費(fèi)用的增加和加強(qiáng)，到某個(gè)值后隨著費(fèi)用的增加而減弱，如果直接用數(shù)值型變量放入模型，可能會(huì)得出敏感度和費(fèi)用負(fù)相關(guān)的結(jié)論，而分組后的變量可以精確的描述這種關(guān)系）； B、變量分組后，可以以更簡(jiǎn)單的斱法來(lái)處理數(shù)值型發(fā)量的異常值和異常類別。C、分組的目的在二使數(shù)據(jù)規(guī)格化，從而可以實(shí)現(xiàn)不同量級(jí)之間數(shù)據(jù)的比較。

4.分類變量的分組方法。當(dāng)分類變量的類別大于 12 個(gè)，或者變量?jī)?nèi)各取值的分布差異較大時(shí)，減低基數(shù)就變得非常重要。

1）變量合并：將相同含義的變量合幵，這種斱法的優(yōu)點(diǎn)是，基于各類別變量的含義易于解釋和判斷，但是由于沒(méi)有考慮默認(rèn)的目標(biāo)變量和被合并的類別之間的關(guān)聯(lián)性，可能導(dǎo)致預(yù)測(cè)力降低。

2）冗余合并：將出現(xiàn)頻率較小的類別合幵為一個(gè)新的類別，并給予一個(gè)合適的標(biāo)識(shí)，如“ other”。

3）最優(yōu)分群：另一種分類方法是基于決策樹(shù)模型的分裂找到最優(yōu)的分組方案，通過(guò)合并變量的類別使預(yù)測(cè)力指標(biāo)（皮爾森卡方統(tǒng)計(jì)量、基尼方差、熵方差、信息值等）最大化。以含有 12 個(gè)取值的分類發(fā)量為例，介紹降低基數(shù)的主要思想。首先假設(shè)所有類別都屬于一個(gè)組；然后，基于使某預(yù)測(cè)力指標(biāo)最大的原則找出最優(yōu)的二分割點(diǎn)，這樣被選中的分組方案中所有備選分組中的預(yù)測(cè)力指標(biāo)都能達(dá)到最大值；然后在每個(gè)子類別中重復(fù)上一步驟，當(dāng)達(dá)到最大分組個(gè)數(shù)時(shí)停止繼續(xù)分割。

5. 數(shù)值型變量的分組方法：

1）等距分組：數(shù)值型變量的取值范圍被分為預(yù)先確定數(shù)量的等寬度區(qū)間。

2）最優(yōu)分段：數(shù)值型變量的最優(yōu)分段相當(dāng)于分類發(fā)量的最優(yōu)分群。實(shí)際上，最優(yōu)分段和最優(yōu)分群的算法都是基于相同的原理和方法。在數(shù)值型發(fā)量的最優(yōu)分段中，先被分為大量的初始寬度相等的段，比如 100 個(gè)。然后將這些段看成是名義變量的類，然后再基于分類變量最優(yōu)分群的算法計(jì)算數(shù)值型變量的最優(yōu)分段。然而，在這種情況下，需要在分組中考慮到分段范圍的取值順序，以保持分段變量保持在一個(gè)連續(xù)刻度上。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)準(zhǔn)備方案

數(shù)據(jù)準(zhǔn)備方案

一、數(shù)據(jù)檢驗(yàn)

二、樣本選擇

三、數(shù)據(jù)預(yù)處理

四、數(shù)據(jù)探索

五、變量選擇

六、變量分組

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)準(zhǔn)備方案

一、數(shù)據(jù)檢驗(yàn)

二、樣本選擇

三、數(shù)據(jù)預(yù)處理

四、數(shù)據(jù)探索

五、變量選擇

六、變量分組

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

二、樣本選擇

三、數(shù)據(jù)預(yù)處理

四、數(shù)據(jù)探索

六、變量分組