數(shù)據(jù)清洗:刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值和異常值
缺失值的處理:刪除記錄 數(shù)據(jù)插補(bǔ) 不處理
拉格朗日插值法:
但插值節(jié)點(diǎn)增減時(shí)差值多項(xiàng)隨之變化,計(jì)算量大
牛頓插值法 :
python的scipy庫中提供了拉格朗日插值法
函數(shù)lagrange()
數(shù)據(jù)變換
簡(jiǎn)單函數(shù)變換:平方 開方 取對(duì)數(shù) 差分運(yùn)算
簡(jiǎn)單函數(shù)變換常用來將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)
用對(duì)數(shù)變換可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列 也可以用對(duì)數(shù)變換對(duì)數(shù)據(jù)進(jìn)行壓縮
數(shù)據(jù)規(guī)范化
為了消除指標(biāo)之間量綱和取值范圍的影響,將數(shù)據(jù)按照比例進(jìn)行縮放是指落在一定特定的區(qū)域
最小-最大規(guī)范化:對(duì)原始數(shù)據(jù)的線性變換 將數(shù)值映射在[0,1]之間
公式
x^*=(x-min)/(max-min)
零均值規(guī)范化經(jīng)過處理后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1
x=(x-x1)/n(x1為數(shù)據(jù)的平均值,n為原始數(shù)據(jù)的標(biāo)準(zhǔn)差)
小數(shù)定標(biāo)規(guī)范化
通過移動(dòng)屬性值的小數(shù)點(diǎn)將其映射在[-1,1]之間,移動(dòng)的小數(shù)值取決于屬性值絕對(duì)值的最大值
連續(xù)屬性離散化
等寬法
等頻法
-
給予聚類的方法
一維聚類的方法包括兩個(gè)步驟:將連續(xù)屬性的只用聚類算法(knn)進(jìn)行聚類,然后對(duì)得到的簇,合并簇
knn算法實(shí)現(xiàn)
from sklearn.cluster import KMeans kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行數(shù)一般等于cpu數(shù)
數(shù)據(jù)規(guī)約
為了降低無效數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性
降低存儲(chǔ)數(shù)據(jù)的成本
方法:逐步向前選擇,逐步向后刪除,決策樹歸納和主成分析 前三種是直接刪除不相關(guān)屬性,后一種屬于用于連續(xù)屬性的數(shù)據(jù)降維,通過構(gòu)造原始數(shù)據(jù)的正交變換
主成分析(PCA)算法在python中位于
sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
n_components代表所要保留的主成成分個(gè)數(shù)n沒有時(shí)默認(rèn)為none 類型為int或string
copy類型bool 是否在運(yùn)算法時(shí)將原始訓(xùn)練數(shù)據(jù)復(fù)制一份
whiten類型bool 白化使每個(gè)特征具有相同的方差
數(shù)據(jù)清洗:刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值和異常值
缺失值的處理:刪除記錄 數(shù)據(jù)插補(bǔ) 不處理
拉格朗日插值法:
但插值節(jié)點(diǎn)增減時(shí)差值多項(xiàng)隨之變化,計(jì)算量大
牛頓插值法 :
python的scipy庫中提供了拉格朗日插值法
函數(shù)lagrange()
數(shù)據(jù)變換
簡(jiǎn)單函數(shù)變換:平方 開方 取對(duì)數(shù) 差分運(yùn)算
簡(jiǎn)單函數(shù)變換常用來將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)
用對(duì)數(shù)變換可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列 也可以用對(duì)數(shù)變換對(duì)數(shù)據(jù)進(jìn)行壓縮
數(shù)據(jù)規(guī)范化
為了消除指標(biāo)之間量綱和取值范圍的影響,將數(shù)據(jù)按照比例進(jìn)行縮放是指落在一定特定的區(qū)域
最小-最大規(guī)范化:對(duì)原始數(shù)據(jù)的線性變換 將數(shù)值映射在[0,1]之間
公式
x^*=(x-min)/(max-min)
零均值規(guī)范化經(jīng)過處理后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1
x=(x-x1)/n(x1為數(shù)據(jù)的平均值,n為原始數(shù)據(jù)的標(biāo)準(zhǔn)差)
小數(shù)定標(biāo)規(guī)范化
通過移動(dòng)屬性值的小數(shù)點(diǎn)將其映射在[-1,1]之間,移動(dòng)的小數(shù)值取決于屬性值絕對(duì)值的最大值
連續(xù)屬性離散化
等寬法
等頻法
-
給予聚類的方法
一維聚類的方法包括兩個(gè)步驟:將連續(xù)屬性的只用聚類算法(knn)進(jìn)行聚類,然后對(duì)得到的簇,合并簇
knn算法實(shí)現(xiàn)
from sklearn.cluster import KMeans kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行數(shù)一般等于cpu數(shù)
數(shù)據(jù)規(guī)約
為了降低無效數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性
降低存儲(chǔ)數(shù)據(jù)的成本
方法:逐步向前選擇,逐步向后刪除,決策樹歸納和主成分析 前三種是直接刪除不相關(guān)屬性,后一種屬于用于連續(xù)屬性的數(shù)據(jù)降維,通過構(gòu)造原始數(shù)據(jù)的正交變換
主成分析(PCA)算法在python中位于
sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
n_components代表所要保留的主成成分個(gè)數(shù)n沒有時(shí)默認(rèn)為none 類型為int或string
copy類型bool 是否在運(yùn)算法時(shí)將原始訓(xùn)練數(shù)據(jù)復(fù)制一份
whiten類型bool 白化使每個(gè)特征具有相同的方差