數(shù)據(jù)預(yù)處理

無量綱化:


常用的如下兩種:

1、min-max標(biāo)準(zhǔn)化(Min-maxnormalization)

也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:

其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。


2. z-score標(biāo)準(zhǔn)化


最常見的標(biāo)準(zhǔn)化方法就是Z標(biāo)準(zhǔn)化,也是SPSS中最為常用的標(biāo)準(zhǔn)化方法,spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。

也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。

經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:


缺失值處理:

常用的幾種處理方法如下,根據(jù)不同的應(yīng)用場景進行選擇

1.直接刪除帶有缺失值的數(shù)據(jù)。

2.直接刪除有大量缺失值的變量

3.對缺失值進行替換。

利用代表性的屬性進行替換,比如眾數(shù)、均值等,或者人為定義一個數(shù)據(jù)去代替缺失值的情況。

4.對缺失值進行賦值

賦值的方法有回歸模型、決策樹模型、貝葉斯定理等去預(yù)測缺失值的最近替代值,也就是把缺失數(shù)據(jù)所對應(yīng)的變量當(dāng)作目標(biāo)變量,把其他的輸入變量作為自變量,為每個需要進行缺失值賦值的字段分別建立預(yù)測模型。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)預(yù)處理一方面提高數(shù)據(jù)的質(zhì)量,另一方面是要讓數(shù)據(jù)更好的適應(yīng)特定的挖掘工具。統(tǒng)計發(fā)現(xiàn),在數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理...
    熊定坤閱讀 4,859評論 0 4
  • 0x00 目標(biāo) 學(xué)習(xí)目標(biāo)有四個: 無量綱化:最值歸一化、均值方差歸一化及sklearn中的Scaler; 缺失值處...
    s0k0y閱讀 1,415評論 0 1
  • 前提 在數(shù)據(jù)挖掘中,海量的原始數(shù)據(jù)中存在大量不完整(有缺失值)、不一致、有異常的數(shù)據(jù),會嚴(yán)重影響到數(shù)據(jù)挖掘建模的執(zhí)...
    神奇的考拉閱讀 2,148評論 0 3
  • 機器學(xué)習(xí)里有一句名言:數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法的應(yīng)用只是讓我們逼近這個上限。這個說法形象且深刻...
    3b899188980c閱讀 3,326評論 0 3
  • 在刷百度推薦的時候看到一則小新聞。孩子忙著上各種班,家長忙著拿錢, 而負(fù)責(zé)具體“執(zhí)行”的爺爺奶奶更是超人…… 接孩...
    蘇蘇大人_1f57閱讀 389評論 0 0

友情鏈接更多精彩內(nèi)容