平均數(shù)和標(biāo)準(zhǔn)差

在機(jī)器學(xué)習(xí)中,平均數(shù)表示的是所有樣本的平均值,也是所有樣本的中心點(diǎn)。
平方差:所有樣本到中心點(diǎn)距離的平方和
標(biāo)準(zhǔn)差:平方差/n得到平均平方差,然后再開根號(hào)。

numpy里有這些函數(shù),
那么我們就可以知道了
平均數(shù)是這些數(shù)的中心,標(biāo)準(zhǔn)差是這些數(shù)到中心點(diǎn)的平均距離,表示的是這些點(diǎn)的離散程度,這個(gè)數(shù)越大,表示越離散。

X = np.array([1, 2, 3])
X.mean()

2.0
X.std()
0.816496580927726
什么情況怎么是0.8幾,距離難道不是1嗎?其實(shí)這里涉及一個(gè)知識(shí),就是全體樣本平方差還是樣本平方差,全體平方差包括所有的元素,而樣本平方差要排除中心點(diǎn)本身,也就是讓全體樣本中的中心點(diǎn)被排除在外。
也就是numpy里計(jì)算的是全體標(biāo)準(zhǔn)差,sqrt(((3-2)2+(1-2)2)/2)

從這個(gè)地方我們引入機(jī)器學(xué)習(xí)里邊常說的標(biāo)準(zhǔn)問題

標(biāo)準(zhǔn)化就是讓原始的數(shù)據(jù)格式化:
1、讓平均值為0,讓標(biāo)準(zhǔn)差(表示距離)為0
這個(gè)簡(jiǎn)單讓每個(gè)值都減去平均值再除去標(biāo)準(zhǔn)差。
當(dāng)時(shí)要注意一點(diǎn),所謂的標(biāo)準(zhǔn)化,只能標(biāo)準(zhǔn)化一列,就是一個(gè)特征變量里的所有的數(shù)據(jù)。這樣是讓每個(gè)特征按照自己的比例進(jìn)行標(biāo)準(zhǔn)化,但是不能和別列的數(shù)據(jù)進(jìn)行混合,因?yàn)椴煌牧惺遣幌嚓P(guān)的數(shù)據(jù),你如果做了標(biāo)準(zhǔn)化,就會(huì)讓不同的列的數(shù)據(jù)也相關(guān)了,這個(gè)是有問題的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 01. 準(zhǔn)備數(shù)據(jù) 使用ggplot自帶的ToothGrowth數(shù)據(jù)。導(dǎo)入數(shù)據(jù)及數(shù)據(jù)結(jié)構(gòu)如下 接下來我們利用這個(gè)數(shù)據(jù)...
    LeoinUSA閱讀 15,517評(píng)論 0 2
  • 1. 簡(jiǎn)述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究?jī)蓚€(gè)或兩個(gè)以上變量之間關(guān)系的方法。 廣義上說...
    安也也閱讀 9,165評(píng)論 0 3
  • 數(shù)據(jù)分析方法分為四大類: 1、單純的數(shù)據(jù)加工方法 a.描述性統(tǒng)計(jì)分析(集中、離中趨勢(shì)分析和數(shù)據(jù)分布) b.相關(guān)性分...
    重生之魂閱讀 3,116評(píng)論 0 3
  • 作為前數(shù)學(xué)專業(yè)畢業(yè)生,學(xué)過的概率統(tǒng)計(jì)知識(shí)已經(jīng)忘記得差不多了,對(duì)于統(tǒng)計(jì)學(xué)的概念能清楚記得的也只有方差,標(biāo)準(zhǔn)差和均值了...
    Endzzz閱讀 19,606評(píng)論 2 140
  • 帶著笑來老師周日發(fā)布的問題,開始第17周《通往財(cái)富自由之路的學(xué)習(xí)》。 智商其實(shí)大部分并非天定,而是后天習(xí)得,你相信...
    Ares1981閱讀 1,401評(píng)論 0 2

友情鏈接更多精彩內(nèi)容