今天看那么了一下數據的預處理的東西,重點就是歸一化了包括MIN-MAX標準化等方法,還沒有一一去驗證每個方法對我論文中研究LF精煉過程鋼水重點溫度預報輸入數據處理后,對預報工作的影響好壞,先MARK在這里日后用啦~(歸一化是一種簡化計算的方式,即將有量綱的表達式,經過變換,化為無量綱的表達式,成為標量。 在多種計算中都經常用到這種方法。)PS:這里我還沒搞清標準化和歸一化的區(qū)別,工作做到這時候應該要對這些概念搞清楚。
數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化為無量綱的純數值,便于不同單位或量級的指標能夠進行比較和加權。
其中最典型的就是數據的歸一化處理,即將數據統(tǒng)一映射到[0,1]區(qū)間上,常見的數據歸一化的方法有:
min-max標準化(Min-max normalization)
也叫離差標準化,是對原始數據的線性變換,使結果落到[0,1]區(qū)間,轉換函數如下:

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。
log函數轉換
通過以10為底的log函數轉換的方法同樣可以實現(xiàn)歸一下,具體方法如下:

看了下網上很多介紹都是x*=log10(x),其實是有問題的,這個結果并非一定落到[0,1]區(qū)間上,應該還要除以log10(max),max為樣本數據最大值,并且所有的數據都要大于等于1。
atan函數轉換
用反正切函數也可以實現(xiàn)數據的歸一化:

使用這個方法需要注意的是如果想映射的區(qū)間為[0,1],則數據都應該大于等于0,小于0的數據將被映射到[-1,0]區(qū)間上。
而并非所有數據標準化的結果都映射到[0,1]區(qū)間上,其中最常見的標準化方法就是Z標準化,也是SPSS中最為常用的標準化方法:
z-score 標準化(zero-mean normalization)
也叫標準差標準化,經過處理的數據符合標準正態(tài)分布,即均值為0,標準差為1,其轉化函數為:

其中μ為所有樣本數據的均值,σ為所有樣本數據的標準差。
本文大部分參考了:
http://webdataanalysis.net/data-analysis-method/data-normalization/
網絡整理歸一化: