為什么用標準差而不是平均差來反映數(shù)據(jù)的離散程度?

(提問)為什么用標準差而不是平均差來反映數(shù)據(jù)的離散程度?

高中時初接觸統(tǒng)計學時學到之所以使用
image

這個先平方和后開方的公式就是為了防止離差相加后的正負相消,當時就很疑惑為什么不能直接使用絕對值來計算。
后來發(fā)現(xiàn)其實統(tǒng)計學中的確存在“平均差”這個概念,就是使用如下絕對值的方法來計算的:


image

那我們?yōu)槭裁词褂脴藴什疃瞧骄顏矸从畴x散程度呢?

之前問過很多人這個問題,但一直沒有得到滿意的解答。大部分的回答集中為以下兩條:

  1. 兩者都能反映離散程度,只是平方和計算更簡單
  2. 方差可導(dǎo),性質(zhì)好,其平方的性質(zhì)延伸出了許多之后的計算與定義

針對第一條:對于同一組數(shù)據(jù),肯定有標準差[圖片上傳失敗...(image-2d0f99-1592106267667)]

平均差,兩者對離散程度的反映是不一樣的。
針對第二條:解答太過空洞,且略帶有事后諸葛的色彩。
我的專業(yè)只是需要對統(tǒng)計學簡單的應(yīng)用,所以對概念理解得可能不夠好。希望能有專業(yè)人士給出更詳細的解答,指出:

  • 標準差相對于平均差的優(yōu)勢具體體現(xiàn)在哪里?

  • 當初定義組內(nèi)數(shù)據(jù)離散程度的時候又可能是因為考慮到了哪些因素才選擇了平方和開方的方式

謝謝。

(1)

做個搬運工吧

學過線性代數(shù)的大概都知道經(jīng)典的最小二乘方法來做線性回歸。問題描述是:給定平面上 N 個點,(這里不妨假設(shè)我們想用一條直線來擬合這些點——回歸可以看作是擬合的特例,即允許誤差的擬合),找出一條最佳描述了這些點的直線。

一個接踵而來的問題就是,我們?nèi)绾味x最佳?我們設(shè)每個點的坐標為 (Xi, Yi) 。如果直線為 y = f(x) 。那么 (Xi, Yi) 跟直線對這個點的“預(yù)測”:(Xi, f(Xi)) 就相差了一個 ΔYi = |Yi – f(Xi)| 。最小二乘就是說尋找直線使得 (ΔY1)^2 + (ΔY2)^2 + .. (即誤差的平方和)最小,至于為什么是誤差的平方和而不是誤差的絕對值和,統(tǒng)計學上也沒有什么好的解釋。然而貝葉斯方法卻能對此提供一個完美的解釋。

我們假設(shè)直線對于坐標 Xi 給出的預(yù)測 f(Xi) 是最靠譜的預(yù)測,所有縱坐標偏離 f(Xi) 的那些數(shù)據(jù)點都含有噪音,是噪音使得它們偏離了完美的一條直線,一個合理的假設(shè)就是偏離路線越遠的概率越小,具體小多少,可以用一個正態(tài)分布曲線來模擬,這個分布曲線以直線對 Xi 給出的預(yù)測 f(Xi) 為中心,實際縱坐標為 Yi 的點 (Xi, Yi) 發(fā)生的概率就正比于 EXP[-(ΔYi)^2]。(EXP(..) 代表以常數(shù) e 為底的多少次方)。

現(xiàn)在我們回到問題的貝葉斯方面,我們要想最大化的后驗概率是:

P(h|D) ∝ P(h) * P(D|h)

又見貝葉斯!這里 h 就是指一條特定的直線,D 就是指這 N 個數(shù)據(jù)點。我們需要尋找一條直線 h 使得 P(h) * P(D|h) 最大。很顯然,P(h) 這個先驗概率是均勻的,因為哪條直線也不比另一條更優(yōu)越。所以我們只需要看 P(D|h) 這一項,這一項是指這條直線生成這些數(shù)據(jù)點的概率,剛才說過了,生成數(shù)據(jù)點 (Xi, Yi) 的概率為 EXP[-(ΔYi)^2] 乘以一個常數(shù)。而 P(D|h) = P(d1|h) * P(d2|h) * .. 即假設(shè)各個數(shù)據(jù)點是獨立生成的,所以可以把每個概率乘起來。于是生成 N 個數(shù)據(jù)點的概率為 EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} 最大化這個概率就是要最小化 (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. 。 熟悉這個式子嗎?

原文http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

(2)

在統(tǒng)計學中(尤其是心理統(tǒng)計和計量經(jīng)濟),其實最主要的目標是在一組數(shù)據(jù)中找出一個最能反映數(shù)據(jù)趨勢(集中程度)的回歸函數(shù)[圖片上傳失敗...(image-3e6468-1592106536857)]

,包括求出相應(yīng)的估計量,也就是要讓殘差(或方差,或平均差)最小,即求Min[圖片上傳中...(image-911fc1-1592106536857-3)]

或者Min[圖片上傳失敗...(image-9ff680-1592106536857)]

;其次,你可以試一下求使得上述兩個方程得最小值(極小值)時的,當然,用的也就是多元微積分的方法(高數(shù)學過的),求導(dǎo)過后可以求出估計量[圖片上傳失敗...(image-9e9f56-1592106536857)]

和[圖片上傳失敗...(image-219744-1592106536857)]

,也就得出了回歸函數(shù)是不是?最后你會發(fā)現(xiàn)用第一個方差的方程(也就是標準差的平方了,一樣的)是比較好算的,但是用第二個平均差的方程是很難算的,事實上其統(tǒng)計理論是非常復(fù)雜的。結(jié)論是,用標準差(方差)是比較好推導(dǎo)無偏性、一致性等的一般統(tǒng)計上要用到的統(tǒng)計性質(zhì)。

作者:知乎用戶
鏈接:https://www.zhihu.com/question/22266542/answer/45155380
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容