數(shù)據(jù)清洗

數(shù)據(jù)清洗:刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值和異常值

缺失值的處理:刪除記錄 數(shù)據(jù)插補(bǔ) 不處理

拉格朗日插值法:
但插值節(jié)點(diǎn)增減時(shí)差值多項(xiàng)隨之變化,計(jì)算量大

牛頓插值法 :

python的scipy庫中提供了拉格朗日插值法

函數(shù)lagrange()

數(shù)據(jù)變換

簡(jiǎn)單函數(shù)變換:平方 開方 取對(duì)數(shù) 差分運(yùn)算

簡(jiǎn)單函數(shù)變換常用來將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)

用對(duì)數(shù)變換可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列 也可以用對(duì)數(shù)變換對(duì)數(shù)據(jù)進(jìn)行壓縮

數(shù)據(jù)規(guī)范化

為了消除指標(biāo)之間量綱和取值范圍的影響,將數(shù)據(jù)按照比例進(jìn)行縮放是指落在一定特定的區(qū)域

最小-最大規(guī)范化:對(duì)原始數(shù)據(jù)的線性變換 將數(shù)值映射在[0,1]之間

公式

x^*=(x-min)/(max-min)

零均值規(guī)范化經(jīng)過處理后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1

x=(x-x1)/n(x1為數(shù)據(jù)的平均值,n為原始數(shù)據(jù)的標(biāo)準(zhǔn)差)

小數(shù)定標(biāo)規(guī)范化

通過移動(dòng)屬性值的小數(shù)點(diǎn)將其映射在[-1,1]之間,移動(dòng)的小數(shù)值取決于屬性值絕對(duì)值的最大值

連續(xù)屬性離散化

  • 等寬法

  • 等頻法

  • 給予聚類的方法

    一維聚類的方法包括兩個(gè)步驟:將連續(xù)屬性的只用聚類算法(knn)進(jìn)行聚類,然后對(duì)得到的簇,合并簇

    knn算法實(shí)現(xiàn)

      from  sklearn.cluster import KMeans
      kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行數(shù)一般等于cpu數(shù)
    

數(shù)據(jù)規(guī)約

為了降低無效數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性

降低存儲(chǔ)數(shù)據(jù)的成本

方法:逐步向前選擇,逐步向后刪除,決策樹歸納和主成分析 前三種是直接刪除不相關(guān)屬性,后一種屬于用于連續(xù)屬性的數(shù)據(jù)降維,通過構(gòu)造原始數(shù)據(jù)的正交變換

主成分析(PCA)算法在python中位于

    sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
    n_components代表所要保留的主成成分個(gè)數(shù)n沒有時(shí)默認(rèn)為none 類型為int或string
    copy類型bool  是否在運(yùn)算法時(shí)將原始訓(xùn)練數(shù)據(jù)復(fù)制一份
    whiten類型bool 白化使每個(gè)特征具有相同的方差

數(shù)據(jù)清洗:刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值和異常值

缺失值的處理:刪除記錄 數(shù)據(jù)插補(bǔ) 不處理

拉格朗日插值法:
但插值節(jié)點(diǎn)增減時(shí)差值多項(xiàng)隨之變化,計(jì)算量大

牛頓插值法 :

python的scipy庫中提供了拉格朗日插值法

函數(shù)lagrange()

數(shù)據(jù)變換

簡(jiǎn)單函數(shù)變換:平方 開方 取對(duì)數(shù) 差分運(yùn)算

簡(jiǎn)單函數(shù)變換常用來將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)

用對(duì)數(shù)變換可以將非平穩(wěn)序列轉(zhuǎn)換成平穩(wěn)序列 也可以用對(duì)數(shù)變換對(duì)數(shù)據(jù)進(jìn)行壓縮

數(shù)據(jù)規(guī)范化

為了消除指標(biāo)之間量綱和取值范圍的影響,將數(shù)據(jù)按照比例進(jìn)行縮放是指落在一定特定的區(qū)域

最小-最大規(guī)范化:對(duì)原始數(shù)據(jù)的線性變換 將數(shù)值映射在[0,1]之間

公式

x^*=(x-min)/(max-min)

零均值規(guī)范化經(jīng)過處理后的數(shù)據(jù)均值為0,標(biāo)準(zhǔn)差為1

x=(x-x1)/n(x1為數(shù)據(jù)的平均值,n為原始數(shù)據(jù)的標(biāo)準(zhǔn)差)

小數(shù)定標(biāo)規(guī)范化

通過移動(dòng)屬性值的小數(shù)點(diǎn)將其映射在[-1,1]之間,移動(dòng)的小數(shù)值取決于屬性值絕對(duì)值的最大值

連續(xù)屬性離散化

  • 等寬法

  • 等頻法

  • 給予聚類的方法

    一維聚類的方法包括兩個(gè)步驟:將連續(xù)屬性的只用聚類算法(knn)進(jìn)行聚類,然后對(duì)得到的簇,合并簇

    knn算法實(shí)現(xiàn)

      from  sklearn.cluster import KMeans
      kmodel = KMeans(n_cluster=k,n_jobs=4)#n_jobs是并行數(shù)一般等于cpu數(shù)
    

數(shù)據(jù)規(guī)約

為了降低無效數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性

降低存儲(chǔ)數(shù)據(jù)的成本

方法:逐步向前選擇,逐步向后刪除,決策樹歸納和主成分析 前三種是直接刪除不相關(guān)屬性,后一種屬于用于連續(xù)屬性的數(shù)據(jù)降維,通過構(gòu)造原始數(shù)據(jù)的正交變換

主成分析(PCA)算法在python中位于

    sklearn.decomposition,PCA(n_components = None,copy=True,whiten=False)
    n_components代表所要保留的主成成分個(gè)數(shù)n沒有時(shí)默認(rèn)為none 類型為int或string
    copy類型bool  是否在運(yùn)算法時(shí)將原始訓(xùn)練數(shù)據(jù)復(fù)制一份
    whiten類型bool 白化使每個(gè)特征具有相同的方差
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容