數據預處理方法(標準化)

今天看那么了一下數據的預處理的東西,重點就是歸一化了包括MIN-MAX標準化等方法,還沒有一一去驗證每個方法對我論文中研究LF精煉過程鋼水重點溫度預報輸入數據處理后,對預報工作的影響好壞,先MARK在這里日后用啦~(歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化為無量綱的表達式,成為標量。 在多種計算中都經常用到這種方法。)PS:這里我還沒搞清標準化和歸一化的區(qū)別,工作做到這時候應該要對這些概念搞清楚。

數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行比較和加權。

  其中最典型的就是數據的歸一化處理,即將數據統(tǒng)一映射到[0,1]區(qū)間上,常見的數據歸一化的方法有:

min-max標準化(Min-max normalization)

  也叫離差標準化,是對原始數據的線性變換,使結果落到[0,1]區(qū)間,轉換函數如下:

  其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

log函數轉換

  通過以10為底的log函數轉換的方法同樣可以實現(xiàn)歸一下,具體方法如下:

  看了下網上很多介紹都是x*=log10(x),其實是有問題的,這個結果并非一定落到[0,1]區(qū)間上,應該還要除以log10(max),max為樣本數據最大值,并且所有的數據都要大于等于1。

atan函數轉換

  用反正切函數也可以實現(xiàn)數據的歸一化:

  使用這個方法需要注意的是如果想映射的區(qū)間為[0,1],則數據都應該大于等于0,小于0的數據將被映射到[-1,0]區(qū)間上。

  而并非所有數據標準化的結果都映射到[0,1]區(qū)間上,其中最常見的標準化方法就是Z標準化,也是SPSS中最為常用的標準化方法:

z-score 標準化(zero-mean normalization)

  也叫標準差標準化,經過處理的數據符合標準正態(tài)分布,即均值為0,標準差為1,其轉化函數為:

  其中μ為所有樣本數據的均值,σ為所有樣本數據的標準差。

本文大部分參考了:

http://webdataanalysis.net/data-analysis-method/data-normalization/

網絡整理歸一化:

http://blog.csdn.net/zbc1090549839/article/details/39996665

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 文章作者:Tyan博客:noahsnail.com | CSDN | 簡書 聲明:作者翻譯論文僅為學習,如有侵權請...
    SnailTyan閱讀 5,483評論 0 8
  • 前提 在數據挖掘中,海量的原始數據中存在大量不完整(有缺失值)、不一致、有異常的數據,會嚴重影響到數據挖掘建模的執(zhí)...
    神奇的考拉閱讀 2,145評論 0 3
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,568評論 19 139
  • 1. 數據標準化 數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區(qū)間。在某些比...
    泰狗汪汪閱讀 1,848評論 0 0
  • 6月18日。陰雨纏綿數日,今日放晴。 赤壁頂冬青樹的葉子油光發(fā)亮?!斑筮蟆钡穆曇魪挠覀壬戏降某?..
    簡壹簡書閱讀 292評論 0 0

友情鏈接更多精彩內容