無量綱化:
常用的如下兩種:
1、min-max標(biāo)準(zhǔn)化(Min-maxnormalization)
也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:

其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。
2. z-score標(biāo)準(zhǔn)化
最常見的標(biāo)準(zhǔn)化方法就是Z標(biāo)準(zhǔn)化,也是SPSS中最為常用的標(biāo)準(zhǔn)化方法,spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。
經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:

缺失值處理:
常用的幾種處理方法如下,根據(jù)不同的應(yīng)用場景進行選擇
1.直接刪除帶有缺失值的數(shù)據(jù)。
2.直接刪除有大量缺失值的變量
3.對缺失值進行替換。
利用代表性的屬性進行替換,比如眾數(shù)、均值等,或者人為定義一個數(shù)據(jù)去代替缺失值的情況。
4.對缺失值進行賦值
賦值的方法有回歸模型、決策樹模型、貝葉斯定理等去預(yù)測缺失值的最近替代值,也就是把缺失數(shù)據(jù)所對應(yīng)的變量當(dāng)作目標(biāo)變量,把其他的輸入變量作為自變量,為每個需要進行缺失值賦值的字段分別建立預(yù)測模型。