本系列文章為可汗學(xué)院統(tǒng)計(jì)學(xué)的公開課筆記,視頻地址:http://open.163.com/special/Khan/khstatistics.html
視頻講的很入門淺顯,挺好的
第一集:均值 中位數(shù) 眾數(shù)
均值:平均數(shù),算數(shù)平均數(shù)
均值計(jì)算:所有數(shù)字相加之和除以數(shù)字的個(gè)數(shù)
均值的意義:衡量集中趨勢(shì)的方法
中位數(shù):中間的數(shù)
中位數(shù)計(jì)算:奇數(shù)個(gè)數(shù)據(jù)為中間值,偶數(shù)個(gè)則中間兩個(gè)值的均值
中位數(shù)意義:衡量集中趨勢(shì)的另一種方法,是一個(gè)數(shù)字描述中間的一種方式。
眾數(shù):數(shù)據(jù)集中出現(xiàn)頻率最多的數(shù)字
第二集:極差 中程數(shù)
極差:指的是數(shù)據(jù)集中數(shù)字分開的有多遠(yuǎn)
極差計(jì)算:數(shù)據(jù)集中最大的數(shù) - 數(shù)據(jù)集中最小的數(shù)
極差意義:極差數(shù)值越小,數(shù)字之間就越緊密
中程數(shù):最大數(shù)和最小數(shù)的平均值(算術(shù)平均值)
中程數(shù)意義:衡量數(shù)據(jù)的集中趨勢(shì)
第三集:象形統(tǒng)計(jì)圖
象形統(tǒng)計(jì)圖是用象形圖像表示數(shù)據(jù)的一種方式

第四集:條形圖

第五集:線形圖
線形圖可以用于隨時(shí)間變化的事物

第六集:餅圖

第七集:誤導(dǎo)人的線形圖
兩張線形圖對(duì)比時(shí)縱坐標(biāo)或橫坐標(biāo)的刻度設(shè)置應(yīng)該以統(tǒng)一標(biāo)準(zhǔn)進(jìn)行,不然容易產(chǎn)生誤導(dǎo)。

第八集:莖葉圖
葉表示最右邊的位/各位,莖代表其它位,如十位,下圖很好表現(xiàn)了球員得分在分布中的位置以及整體數(shù)據(jù)的分布狀況

第九集:箱線圖
箱線圖/盒須圖是為了體現(xiàn)中位數(shù)和散布情況
核須圖會(huì)展現(xiàn)數(shù)據(jù)非散布情況,按照四分位進(jìn)行劃分,它能顯示出數(shù)據(jù)的中位數(shù)在哪
首先需要對(duì)數(shù)據(jù)集中數(shù)據(jù)進(jìn)行排序,找出數(shù)據(jù)集的中位數(shù)M
其次需要找到小于中位數(shù)各數(shù)的中位數(shù)M1(下四分位數(shù))以及大于中位數(shù)各數(shù)的中位數(shù)M2(上四分位數(shù)),此時(shí)相當(dāng)于將數(shù)據(jù)集劃分為四個(gè)子集,盒須圖是這個(gè)劃分的圖像表示
作盒須圖大的第一件事就是顯示所有數(shù)據(jù)的范圍

第十集:箱線圖2

第一四分區(qū)間/1Q…………
第十一集 統(tǒng)計(jì):集中趨勢(shì)
統(tǒng)計(jì)學(xué)分類 Statistics
描述統(tǒng)計(jì)學(xué) descriptive statistics 假設(shè)有一個(gè)數(shù)據(jù)集,在不告訴別人所有數(shù)據(jù)的情況下介紹這些數(shù)據(jù)的情況,通過(guò)一些指示性數(shù)字來(lái)代表所有的數(shù)據(jù),而無(wú)需將所有的數(shù)據(jù)都說(shuō)一次。
推論統(tǒng)計(jì)學(xué) inferential statics 運(yùn)用數(shù)據(jù)來(lái)對(duì)事物做結(jié)論,假設(shè)從總體中得到了一些樣本,只需對(duì)樣本進(jìn)行一些數(shù)學(xué)計(jì)算,便有可能推斷出整體的總體情況
下面先從描述統(tǒng)計(jì)學(xué)入手:
如果提供一組數(shù)據(jù)需要我們對(duì)其進(jìn)行描述,我們可能需要找到其中最能代表這組數(shù)據(jù)的個(gè)別數(shù)字,或者是一些能體現(xiàn)集中趨勢(shì)的數(shù)字
廣義的平均數(shù):描述集中趨勢(shì)的某特定數(shù)值 Average/最能代表一組數(shù)據(jù)的某個(gè)值 ,不是均值 / mean
這個(gè)廣義的平均數(shù)可以是均值、中位數(shù)或眾數(shù)
因?yàn)殡x群值的干擾,有時(shí)候眾數(shù)或中位數(shù)比均值更能反應(yīng)數(shù)據(jù)的集中趨勢(shì)/描述這組數(shù)字
第十二集 統(tǒng)計(jì):樣本和總體
希臘字母μ代表總體均值 X上加一橫表示樣本均值
第十三集 統(tǒng)計(jì):總體方差
方差記作 δ^2,即δ的平方
方差是為了更好的理解數(shù)據(jù)結(jié)構(gòu),在不放出全部數(shù)據(jù)的情況下描述數(shù)據(jù)總體
總體方差計(jì)算公式:(∑(x(i) - μ)^2) / N
直觀來(lái)說(shuō),方差和標(biāo)準(zhǔn)差都可以用來(lái)衡量數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)距離均值的遠(yuǎn)近程度
第十四集 統(tǒng)計(jì):樣本方差
Sn^2 為樣本方差記號(hào),下標(biāo)n表示樣本數(shù)為n個(gè)
Sn^2 = ∑(x(i) - 樣本均值)^2/ n
上述的樣本方差通常會(huì)低估總體方差,更好的總體估計(jì)方差(無(wú)偏方差)計(jì)算如下:
S(n-1)^2 = ∑(x(i) - 樣本均值) ^2/ (n-1)
第十五集 統(tǒng)計(jì):標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差在方差的基礎(chǔ)上來(lái)看很簡(jiǎn)單,就是方差的平方根,總體標(biāo)準(zhǔn)差記作δ,樣本的標(biāo)準(zhǔn)差記作S
為什么使用標(biāo)準(zhǔn)差
1.標(biāo)準(zhǔn)差的單位更好,比如數(shù)據(jù)單位為cm,則方差計(jì)算結(jié)果單位為cm^2,而標(biāo)準(zhǔn)差計(jì)算結(jié)果單位為cm
2.假設(shè)事物分布是鐘型曲線,這可以幫助求得事物落在均值一兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi)的概率
第十六集 統(tǒng)計(jì):諸方差公式
求總體方差公式可以化簡(jiǎn)為:總體所有數(shù)的平方求均值,然后減去總體均值的平方