小島寬之《極簡統(tǒng)計(jì)學(xué)》讀書筆記

統(tǒng)計(jì)學(xué)可以分為描述和推斷兩個(gè)部分。

即使數(shù)據(jù)是“不確定的”,他們也有自己固有的“特點(diǎn)”和“特征”。這種固有的特點(diǎn)和特征叫作“分布的特性”。

統(tǒng)計(jì)學(xué)對(duì)于一堆數(shù)據(jù),進(jìn)行了信息壓縮,雖然犧牲了原始數(shù)據(jù)的細(xì)節(jié),但這種犧牲反而刻畫出了數(shù)據(jù)分布和其背后的特征,所謂壓縮,可以理解為總結(jié)數(shù)據(jù)要點(diǎn)的一種操作。

平均值是從數(shù)據(jù)中選出的一個(gè)代表數(shù)值,在直方圖中是使左右平衡的點(diǎn);數(shù)據(jù)在平均值的周邊分布,反映了數(shù)據(jù)的集中趨勢(shì);多次出現(xiàn)的數(shù)據(jù)對(duì)平均值的影響力大;分布左右對(duì)稱的情況下,其對(duì)稱軸通過的點(diǎn)即平均值。對(duì)數(shù)據(jù)取平均值的方法不止一個(gè),根據(jù)需要有不同處理手法,最為常用的是算術(shù)平均,這種平均可以在合計(jì)的意義上保持其本質(zhì);對(duì)于增長率等情況,想在乘法意義上保持其本質(zhì)則應(yīng)該使用幾何平均;其他還有均方根平均、調(diào)和平均等等。

方差是可以評(píng)價(jià)數(shù)據(jù)波動(dòng)情況的量,但是以方差來刻畫數(shù)據(jù)的波動(dòng)特征有兩點(diǎn)不方便。第一,作為表示波動(dòng)情況的數(shù)值太大了;第二,單位發(fā)生了變化。將方差開平方后得到標(biāo)準(zhǔn)差(S.D.)這個(gè)統(tǒng)計(jì)量,使用標(biāo)準(zhǔn)差刻畫數(shù)據(jù)的波動(dòng)特征則相對(duì)比較合適,S.D.是表示以平均值為基點(diǎn),數(shù)據(jù)大致擴(kuò)散到多遠(yuǎn)的程度的刻畫量。

知道了標(biāo)準(zhǔn)差,從數(shù)據(jù)中我們還可以知道些什么呢?第一,可以明白一組數(shù)據(jù)中某一個(gè)數(shù)據(jù)的意義。一組數(shù)據(jù)中的某一個(gè)數(shù)據(jù)是否特殊,應(yīng)當(dāng)以S.D.為基準(zhǔn)來看待,比如這個(gè)數(shù)據(jù)是處于一個(gè)標(biāo)準(zhǔn)差范圍內(nèi)還是兩個(gè)兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi)等等。如果數(shù)據(jù)的偏離處在一個(gè)S.D.以內(nèi),可以說是“平?!钡臄?shù)據(jù),而處在兩個(gè)S.D.以外,則可以說這個(gè)數(shù)據(jù)是“特殊”的數(shù)據(jù)。第二,可以通過比較多個(gè)數(shù)據(jù)組得出不同。比如說,兩個(gè)人分別10次考試的成績作為兩個(gè)數(shù)據(jù)組,分析這兩個(gè)數(shù)據(jù)組的特征差異。

僅憑收益率的平均值不能判斷某一產(chǎn)品是否屬于優(yōu)良投資,S.D.也是一個(gè)很重要的參數(shù)。一個(gè)比較合適的做法是將兩者綜合考慮,將收益率的平均值比上收益率的S.D.,我們將收益率的平均值稱為回報(bào)(縱坐標(biāo)),收益率的S.D.稱為風(fēng)險(xiǎn)(橫坐標(biāo)),以回報(bào)和風(fēng)險(xiǎn)的綜合效果作為投資產(chǎn)品的一個(gè)優(yōu)良衡量標(biāo)準(zhǔn)。比較不同產(chǎn)品時(shí),可以過原點(diǎn)和各自的比值點(diǎn)作直線,即可得到各產(chǎn)品的斜率。斜率較大者品質(zhì)較為優(yōu)良。如此即可將回報(bào)和風(fēng)險(xiǎn)各不相同的產(chǎn)品進(jìn)行一個(gè)統(tǒng)一的比較。

標(biāo)準(zhǔn)正態(tài)分布的平均值為0,標(biāo)準(zhǔn)差為1。距離平均值1個(gè)S.D.范圍以內(nèi)的數(shù)據(jù)的相對(duì)頻數(shù)為0.6826(7成弱);距離平均值2個(gè)S.D.范圍以內(nèi)的數(shù)據(jù)的相對(duì)頻數(shù)為0.9544(9成5強(qiáng))。標(biāo)準(zhǔn)正態(tài)分布的95%預(yù)測(cè)命中區(qū)間為-1.96至+1.96。滿足95%預(yù)測(cè)命中的區(qū)間還有很多,但是由于正態(tài)分布左右對(duì)稱的特點(diǎn),選擇其他區(qū)間要滿足95%命中的話,會(huì)導(dǎo)致需要預(yù)測(cè)的范圍變大,即相應(yīng)的降低了預(yù)測(cè)的精度??傊@個(gè)區(qū)間要盡可能選在數(shù)據(jù)集中的區(qū)域。需要注意的是,95%預(yù)測(cè)命中區(qū)間和95%置信區(qū)間不是同一個(gè)概念。

“95%預(yù)測(cè)命中區(qū)間”是指“95%的數(shù)據(jù)在此區(qū)間”,因此,認(rèn)為“下次觀測(cè)到的數(shù)據(jù)進(jìn)入此區(qū)間有95%的概率”。但是,置信區(qū)間的情況不是這樣。“95%置信區(qū)間”是指“無論出現(xiàn)什么樣的觀測(cè)值x,反復(fù)以此方法進(jìn)行數(shù)據(jù)值N的估計(jì),其中95%的估計(jì)結(jié)果是命中的”。也就是說,如果持續(xù)進(jìn)行區(qū)間估計(jì),可求得對(duì)應(yīng)觀測(cè)值x的各種各樣的區(qū)間,但在100次中有95次真正的N落在求出的區(qū)間內(nèi)。(置信區(qū)間是針對(duì)因變量均值的區(qū)間,而預(yù)測(cè)區(qū)間是針對(duì)因變量個(gè)體值的區(qū)間。比如,讓你預(yù)測(cè)一個(gè)高中班級(jí)中學(xué)生的平均身高,跟讓你預(yù)測(cè)該班級(jí)中具體某一個(gè)學(xué)生的身高)。

可以說,統(tǒng)計(jì)學(xué)的方法論與目前的科學(xué)法則的形式稍有不同,這就意味著要從一開始就放棄100%命中。

從部分推測(cè)整體可以說是統(tǒng)計(jì)學(xué)的妙趣所在,推論統(tǒng)計(jì)的工作,是關(guān)于從觀測(cè)來的數(shù)據(jù)到整體的推斷和總結(jié)。比如,我們做醬湯的時(shí)候,需要判斷味道是否合適,于是,用勺子舀著喝一點(diǎn),這就是根據(jù)部分推斷整體。但是偶爾會(huì)嘗到稍淡或稍濃的地方,所以醬湯總體的味道與試嘗的味道多少有些偏差也是正常的。同樣,也必須做好統(tǒng)計(jì)推論與總體并非完全一致,而是有一定偏差的思想準(zhǔn)備。

進(jìn)行充分的觀測(cè),就能相當(dāng)鮮明地捕捉總體的情況?,F(xiàn)實(shí)中很多情況并不允許我們進(jìn)行大量的觀測(cè),在此種情況下,如何實(shí)現(xiàn)從不那么大量的觀測(cè)去推斷總體的特點(diǎn)呢?

雖然通過“隨機(jī)抽樣法”觀測(cè)足夠多的次數(shù)確實(shí)可以明確這些分布,但我們卻無法對(duì)周圍的不確定現(xiàn)象進(jìn)行那么多次觀測(cè)(比如科學(xué)試驗(yàn)一般很難獲取規(guī)模龐大的數(shù)據(jù))。

假如我們實(shí)際觀測(cè)到了1個(gè)數(shù)據(jù),可以從它推測(cè)總體的什么呢?可以推測(cè)“總體的平均值接近這個(gè)觀測(cè)到的值”吧,因?yàn)槠骄凳菑姆植贾羞x取的具有代表性的數(shù)據(jù),數(shù)據(jù)的分布有向平均值聚集的趨勢(shì)。假設(shè)通過什么手段知道了總體的標(biāo)準(zhǔn)差,那我們就能知道數(shù)據(jù)的集中程度,對(duì)總體做一個(gè)更詳細(xì)的推測(cè)。即使分布不是正態(tài)分布而是一般分布,根據(jù)切比雪夫不等式,通過選取適當(dāng)?shù)膋,普通數(shù)據(jù)也視為分布在-k個(gè)S.D.到k個(gè)S.D.之間,而這個(gè)范圍之外的數(shù)據(jù)視為特殊數(shù)據(jù)(比如正態(tài)分布是k = 2,一般距離平均值大于k個(gè)S.D.以上的數(shù)據(jù)占全體數(shù)據(jù)的比例不大于1/(k^2),現(xiàn)實(shí)中的一般分布取3或6個(gè)S.D.的比較常用?)。

觀測(cè)1個(gè)數(shù)據(jù)推測(cè)很容易具有偶然性,所以一般是觀測(cè)n個(gè)數(shù)據(jù)再取算術(shù)平均即為樣本均值,根據(jù)大數(shù)法則,觀測(cè)的數(shù)據(jù)個(gè)數(shù)n越大,樣本均值接近總體均值的可能性越高(大樣本推斷)。在戈塞特之前的學(xué)者們,以樣本標(biāo)準(zhǔn)差作為總體標(biāo)準(zhǔn)差使用,確實(shí),如果樣本數(shù)n夠大,沒什么問題。但是,戈塞特發(fā)現(xiàn),如果樣本數(shù)n小,就會(huì)產(chǎn)生無法忽視的大的偏差,于是他發(fā)現(xiàn)了t分布,使得實(shí)現(xiàn)小樣本自然估計(jì)成為可能(小樣本推斷)。

書本后記)統(tǒng)計(jì)學(xué)理論中有某種秘訣的“飛躍”,推論統(tǒng)計(jì)的方法是從部分推論整體的一種歸納法。習(xí)慣了數(shù)學(xué)中完美無缺的演繹法的人可能覺得別扭,要領(lǐng)悟這種充滿飛躍的理論體系,必須將頭腦從過往習(xí)慣的思考方法中切換出來。統(tǒng)計(jì)學(xué)正是因?yàn)橛辛诉@樣的飛躍,才有了更加密切聯(lián)系“現(xiàn)實(shí)”的可能,這也正是統(tǒng)計(jì)學(xué)的活力和魅力所在。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容