在機(jī)器學(xué)習(xí)中,平均數(shù)表示的是所有樣本的平均值,也是所有樣本的中心點(diǎn)。
平方差:所有樣本到中心點(diǎn)距離的平方和
標(biāo)準(zhǔn)差:平方差/n得到平均平方差,然后再開根號(hào)。
numpy里有這些函數(shù),
那么我們就可以知道了
平均數(shù)是這些數(shù)的中心,標(biāo)準(zhǔn)差是這些數(shù)到中心點(diǎn)的平均距離,表示的是這些點(diǎn)的離散程度,這個(gè)數(shù)越大,表示越離散。
X = np.array([1, 2, 3])
X.mean()
2.0
X.std()
0.816496580927726
什么情況怎么是0.8幾,距離難道不是1嗎?其實(shí)這里涉及一個(gè)知識(shí),就是全體樣本平方差還是樣本平方差,全體平方差包括所有的元素,而樣本平方差要排除中心點(diǎn)本身,也就是讓全體樣本中的中心點(diǎn)被排除在外。
也就是numpy里計(jì)算的是全體標(biāo)準(zhǔn)差,sqrt(((3-2)2+(1-2)2)/2)
從這個(gè)地方我們引入機(jī)器學(xué)習(xí)里邊常說的標(biāo)準(zhǔn)問題
標(biāo)準(zhǔn)化就是讓原始的數(shù)據(jù)格式化:
1、讓平均值為0,讓標(biāo)準(zhǔn)差(表示距離)為0
這個(gè)簡(jiǎn)單讓每個(gè)值都減去平均值再除去標(biāo)準(zhǔn)差。
當(dāng)時(shí)要注意一點(diǎn),所謂的標(biāo)準(zhǔn)化,只能標(biāo)準(zhǔn)化一列,就是一個(gè)特征變量里的所有的數(shù)據(jù)。這樣是讓每個(gè)特征按照自己的比例進(jìn)行標(biāo)準(zhǔn)化,但是不能和別列的數(shù)據(jù)進(jìn)行混合,因?yàn)椴煌牧惺遣幌嚓P(guān)的數(shù)據(jù),你如果做了標(biāo)準(zhǔn)化,就會(huì)讓不同的列的數(shù)據(jù)也相關(guān)了,這個(gè)是有問題的。