《你一定愛讀的極簡統(tǒng)計學(xué)》——統(tǒng)計學(xué)離我們并不遠

做指標(biāo)管理、數(shù)據(jù)分析已經(jīng)2年了,工作已經(jīng)慢慢有了套路,但對于數(shù)據(jù)的應(yīng)用基本上還處于各單位分析,而我來匯總的初級階段。對于數(shù)據(jù)的有效性核查基本也只能靠直覺,靠熟悉程度,經(jīng)驗的經(jīng)歷是一定的,但成長的速度可真的是看不見的慢。為了讓自己有提升專業(yè)能力,提高對數(shù)據(jù)的分析應(yīng)用,本年的自我提升特別加入了專業(yè)的學(xué)習(xí),而且特別制定了第一階段90天數(shù)據(jù)分析能力提升入門計劃,簡單來說就要增加輸入,同時以輸出倒逼輸入。

90天數(shù)據(jù)分析能力提升計劃

輸入:

專業(yè)的書籍——統(tǒng)計、數(shù)據(jù)分析

系統(tǒng)的培訓(xùn)——數(shù)說1-3季

工具的學(xué)習(xí)——透視表、儀表盤

公眾號、微博

輸出:

10篇讀書筆記

1個改進項目

1項專項分析報告

指標(biāo)儀表盤初稿


學(xué)習(xí)數(shù)據(jù)分析,統(tǒng)計學(xué)可謂是必學(xué)的知識之一。相對于其他的統(tǒng)計學(xué)書籍,各種正態(tài)分布、卡方分布、T分布的晦澀概念,《極簡統(tǒng)計學(xué)》的內(nèi)容沒有那么的學(xué)術(shù)化,案例也貼合工作、生活,整個篇幅也就200頁,并且每章后都有練習(xí)題,非常適合統(tǒng)計學(xué)初學(xué)者自學(xué)。下面記錄一下自己讀書的一些關(guān)鍵點及啟示。

一、幾個重要的統(tǒng)計概念

1.統(tǒng)計、概率的區(qū)別

統(tǒng)計是對過去事件的概述

概率是對于未來將發(fā)生事件的描述

2.樣本——母體

樣本就是我們平時可以獲取的數(shù)據(jù)。

母體就是藏在少數(shù)樣本后的龐大的全部數(shù)據(jù)。

3.平均值——就是直方圖的平衡支點,主要作用是抵消偶然的數(shù)據(jù)分散、得出與實際值接近的值

直方圖就是數(shù)據(jù)的分組頻次,很直觀,但不便于口頭的交流,而且需要很大的空間,因此引入平均值。


樣本均值——總體均值:觀測的數(shù)據(jù)越多,樣本均值接近總體均值的可能性越大。

電力系統(tǒng)里的平均值都是常見的是總體均值,如戶均配變?nèi)萘?、客戶平均停電時間、平均售電單價。

4.方差、標(biāo)準(zhǔn)差——主要作用是表明數(shù)據(jù)的分散和波動,搞清楚數(shù)據(jù)的分散程度。

引子:看看下面2組數(shù)據(jù)

100 200 平均值150

140 160 平均值150

這兩組數(shù)據(jù)僅用平均值衡量,明顯不合理。

再來一個書中的例子


所有引入方差、標(biāo)準(zhǔn)差來表明數(shù)據(jù)的分散和波動,通過標(biāo)準(zhǔn)差就能衡量是否是特殊的數(shù)據(jù)。以沖浪為例,平均值就是平靜的海水平面,而標(biāo)準(zhǔn)差就是浪涌的激烈程度。

樣本方差就是各樣本偏差平方再取平均值。

二、重要應(yīng)用:

1.如何比較股票的優(yōu)劣呢?——夏普比率


電網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用啟示:可以計算各月售電量、停電時間;各設(shè)備類別的報廢資產(chǎn)凈值率、95598各類別投訴數(shù)量等分析指標(biāo)的標(biāo)準(zhǔn)差、方差的指標(biāo),用于分析指標(biāo)是否異常。

2.利用正態(tài)分布進行預(yù)測——所謂95%的置信區(qū)間

一般正態(tài)分布:平均值為μ,標(biāo)準(zhǔn)差為σ。(標(biāo)準(zhǔn)正態(tài)分布平均值為0,標(biāo)準(zhǔn)值為1。)

(1)數(shù)據(jù)x是平均值為μ,標(biāo)準(zhǔn)差為σ的正態(tài)分布時,95%的預(yù)測命中區(qū)間的不等式為


電網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用啟示:可以根據(jù)歷史數(shù)據(jù)計算總體的均值和標(biāo)準(zhǔn)差,進而計算95%的置信區(qū)間,做為數(shù)據(jù)收集、數(shù)據(jù)清理時的有效性檢查。

(2)已知母體為正態(tài)分布,標(biāo)準(zhǔn)差σ已知,平均值μ未知,由觀察的數(shù)據(jù)來對μ進行母體的區(qū)間估計。(實際情況較難實現(xiàn)標(biāo)準(zhǔn)差σ已知,可能出現(xiàn)的是機器生產(chǎn)已經(jīng)給定標(biāo)準(zhǔn)差)


電網(wǎng)企業(yè)的數(shù)據(jù)應(yīng)用啟示:可以用于精益項目改善的前后的現(xiàn)狀檢查及效果評估。可以用于零售行業(yè)的銷售情況的測算、可以用于統(tǒng)計各人員的操作時間計算等等。

3.利用T分布估算總體均值

T分布稱為“自由度n-1的t分布”。這個分布非常近似于正態(tài)分布,主要通過計算樣本均值和樣本方差,來估算總體的均值。t分布是推論統(tǒng)計中最自然、最實用、最常用的方法。

4.利用卡方分布估算總體方差


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容