定量數(shù)據(jù)分析筆記

用stata算集中指數(shù)采用Stata系統(tǒng)自帶數(shù)據(jù)庫(kù)auto.dta。

一、集中趨勢(shì)的統(tǒng)計(jì)描述
  以變量price為例進(jìn)行說(shuō)明。
  均數(shù):采用mean price計(jì)算得6165.257。
  算術(shù)均數(shù)、幾何均數(shù)和調(diào)和均數(shù)可以采用means、ameans、gmeans、hmeans計(jì)算。
  眾數(shù):沒(méi)有對(duì)應(yīng)的命令可以直接計(jì)算眾數(shù),但是可以通過(guò)幾種策略進(jìn)行變通計(jì)算。如通過(guò)egen x=mode(price); disp x; drop x,不過(guò)本例中price中沒(méi)有相同的數(shù)值,所以無(wú)法計(jì)算眾數(shù);另外也可通過(guò)preserve; contract price, freq(x); sum x; list price if x==r(max); restore 來(lái)顯示。
  中位數(shù):centile price或tabstat price, s(med),當(dāng)然tabstat還可以計(jì)算均數(shù)、樣本量、標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)誤、方差、極差、四分位間距、變異系數(shù)、峰度系數(shù)、偏度系數(shù)等等很多指標(biāo)。
  不過(guò)采用Stata(summarize ,tabstat等命令)計(jì)算的峰度系數(shù)與Excel、SPSS和SAS計(jì)算的結(jié)果有所不同,原因是采用的公式不同,大家根據(jù)實(shí)際情況來(lái)選擇。
  二、離散趨勢(shì)指標(biāo)
  極差(全距):tabstat price, s(r)
  標(biāo)準(zhǔn)差:tabstat price, s(sd)
  方差:tabstat price, s(v)
  四分位間距:tabstat price, s(iqr)
  變異系數(shù):tabstat price, s(cv)
  采用summarize , detail命令可以計(jì)算均數(shù)、標(biāo)準(zhǔn)差、峰度系數(shù)、偏度系數(shù)、多個(gè)百分位數(shù)。不加detial可以得到最大值、最小值。

回歸分析
一、概念介紹
R2,又叫做決定系數(shù)(coefficient of determination),是來(lái)說(shuō)明自變量解釋因變量變化百分比的度量,R2越接近1,表示回歸越成功。

pearson相關(guān)系數(shù)(Pearson‘s correlation coefficient),用字母r表示,主要描述線(xiàn)性相關(guān)強(qiáng)度的量,取值(-1,1)之間,當(dāng)兩個(gè)變量有很強(qiáng)的線(xiàn)性相關(guān)時(shí),相關(guān)系數(shù)接近于1(正相關(guān))

最小二乘法(least squares regression),最小二乘法就是尋找一條直線(xiàn),使得所有點(diǎn)到該直線(xiàn)的垂直距離的平方和最小,也就是方差最小

F分布,

X2分布(卡方分布)

t分布
比較樣本均值所代表的未知總體均值μ和已知總體均值μ1的異同。
類(lèi)型:獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn)

week4
正態(tài)分布:一條呈鐘形的對(duì)稱(chēng)曲線(xiàn)。對(duì)于一個(gè)服 從正態(tài)分布的隨機(jī)變量,它的均值、眾數(shù)和中位 數(shù)相同,都在概率分布曲線(xiàn)的最高點(diǎn)上。其相對(duì) 頻率從中間逐漸向兩端遞減。
與中央極限定理的關(guān)系,是經(jīng)典統(tǒng)計(jì)估計(jì)的基石。
判斷標(biāo)準(zhǔn):1、看頻數(shù)(百分比)分布形狀;2、計(jì)算均 值(70.7)、中位數(shù)(70)與眾數(shù)(70)。

均值決定正態(tài)分布中心的位置,標(biāo)準(zhǔn)差決定正太分布鐘形的形狀。標(biāo)準(zhǔn)差決定正態(tài)分布的鐘形形狀——標(biāo)準(zhǔn)差越大,鐘形越扁平

標(biāo)準(zhǔn)正態(tài)分布:均值為0,標(biāo)準(zhǔn)差為1的正太分布為標(biāo)準(zhǔn)正太分布,亦稱(chēng)為Z分布,Z的單位與標(biāo)準(zhǔn)差的長(zhǎng)度相同。一般正太分布值轉(zhuǎn)為標(biāo)準(zhǔn)正太分布:Z=(x-μ)/σ
Z值在某一范圍的概率即相應(yīng)范圍內(nèi)概率分布曲線(xiàn) 下的面積。
p(Z<1.96)stata表示為:display normal(1.96);p(Z>1.96)stata表示為:1-display normal(1.96),如計(jì)算全體員工成績(jī)(μ=70.07,σ=10.27),想知道成績(jī)位于均值到85之間的比例
解:display normal((85-70.07)/10.27)-.5(其中原理就是先轉(zhuǎn)化為標(biāo)準(zhǔn)正太分布值,然后求出標(biāo)準(zhǔn)下的面積,再減去平均值0.5);反過(guò)來(lái)如果想通過(guò)比例求出分?jǐn)?shù)線(xiàn),即已知Z值,求x,x=Zσ+μ,stata代碼:dis invnormal(.9)10.27+70.07(求處于公司前10%的分?jǐn)?shù)線(xiàn))

檢查變量是否正太分布

symmetry plot:對(duì)稱(chēng)圖,用來(lái)判斷樣本數(shù)據(jù)的分布是否是對(duì)稱(chēng)的。symmetry plot在判斷樣本數(shù)據(jù)是否符合對(duì)稱(chēng)分布時(shí)會(huì)有一條reference line 即參考線(xiàn),這是一條完美的對(duì)稱(chēng)分布數(shù)據(jù),樣本數(shù)據(jù)越接近這條線(xiàn),越對(duì)稱(chēng)。stata命令:symplot varname
qnorm:畫(huà)出一幅分位-正太標(biāo)繪圖,就是比較樣本數(shù)據(jù)和正態(tài)分布數(shù)據(jù)在各個(gè)分位數(shù)上的差異
kdensity:是一種估計(jì)對(duì)給定樣本集合點(diǎn)隨機(jī)變量分布的密度函數(shù),屬于非參數(shù)估計(jì)(參數(shù)估計(jì)指先驗(yàn)的假定數(shù)據(jù)符合某種特定的性態(tài),如線(xiàn)性的、指數(shù)性態(tài)的等,由此判斷數(shù)據(jù)樣本是否符合這種分布),而非參數(shù)估計(jì)方法則不同,它對(duì)數(shù)據(jù)分布不附加任何假定,是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布的方法。

抽樣分布
抽樣誤差:樣本的統(tǒng)計(jì)值(statistic)與總體參數(shù) (parameter)之間的差異
中央極限定理:對(duì)于一個(gè)均值為μ,標(biāo)準(zhǔn)差為σ的總體,無(wú)論它本身是否服從正太分布,如果無(wú)數(shù)次從總體中抽取樣本量為n的樣本,隨著n 的增大,那么樣本均值的分布將服從均值為μ,標(biāo)準(zhǔn)差為σ/根號(hào)n的正太分布,即:

比例的抽樣分布:對(duì)于一個(gè)某特定時(shí)間發(fā)生比例為π的總體,如果從中無(wú)限次抽取樣本量為n的樣本,那么隨著n的增大,樣本比例P的分布將服從均值為π,標(biāo)準(zhǔn)差為 根號(hào)下π(1-π)/n,即

例題:某公司男女人數(shù)相同,現(xiàn)在隨機(jī)抽取100名員工,問(wèn)樣本中男人人數(shù)大于等于60人概率是多少?
dis sqrt(0.5*0.5/100) #求出標(biāo)準(zhǔn)差為0.05,所以這是一個(gè)均值為0.5,標(biāo)準(zhǔn)差為0.05的正太分布
dis (0.6-0.5)/0.05 #轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布,求出Z=0.2
dis 1-normal(2) #求出的就是大于等于60%的面積=0.022

置信區(qū)間
通過(guò)統(tǒng)計(jì)推斷找到包括樣本統(tǒng)計(jì)量在內(nèi)的一個(gè)區(qū)間;即通過(guò)有限樣本,估計(jì)出未知參數(shù)以多大的概率在某一區(qū)間內(nèi)取值。根據(jù)樣本均值分布特點(diǎn),該區(qū)間被認(rèn)為包含總體參數(shù)。

置信水平(1-α)
總體參數(shù)落入某區(qū)間的概率。也就是“準(zhǔn)確估計(jì)”的信心。而α稱(chēng)為錯(cuò)誤水平。常用置信水平:95%、99%

計(jì)算置信區(qū)間的通用公式
公式:點(diǎn)估計(jì)值+-(關(guān)鍵值)*(標(biāo)準(zhǔn)誤差)
點(diǎn)估計(jì)值,指樣本統(tǒng)計(jì)值(均值、比例)
關(guān)鍵值,指根據(jù)抽樣分布和置信水平?jīng)Q定的一個(gè)固定值Z α/2,如95%的置信區(qū)間,Z α/2=±1.96
標(biāo)準(zhǔn)誤差是抽樣分布的標(biāo)準(zhǔn)差:σ/sqrt(n)

例子

均值的置信區(qū)間規(guī)律
置信水平相同的情況下,樣本量越大,區(qū)間越??;
樣本量相同的情況下,置信水平越高,區(qū)間越大 (這是因?yàn)橛捎跀?shù)據(jù)樣本相同,要想滿(mǎn)足更高的置信水平,就必須有更大的置信區(qū)間,這樣才能保證樣本數(shù)據(jù)可以更正確的落入該區(qū)間)
區(qū)間越大,總體均值落在其間的可能性越大,估計(jì)正確的概率越大(犯錯(cuò)誤的可能性越?。?,但估計(jì)的精確度越??;區(qū)間越小,估計(jì)的精確度越大,但估計(jì)錯(cuò)誤的概率也越大

求置信區(qū)間的stata命令
dis 平均值+-關(guān)鍵值*(標(biāo)準(zhǔn)差/根號(hào)下樣本量n)
ci var,level()

小樣本參數(shù)估計(jì):t分布
t分布:參數(shù)估計(jì)的過(guò)程中,當(dāng)總體標(biāo)準(zhǔn)差未知時(shí),我們使用樣本的標(biāo)準(zhǔn)差代替。但是這種處理方式僅適用于樣本數(shù)量較大時(shí),樣本數(shù)量小的話(huà)就會(huì)影響精度。因此,我們通常用t分布對(duì)小樣本均值(比例)進(jìn)行估計(jì)

t分布作用:比較樣本均值所代表的未知總體均值μ和已知總體均值μ1的異同。
類(lèi)型:獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn)

t分布公式和性質(zhì)
μ指平均值,s指樣本標(biāo)準(zhǔn)差

小樣本均值(比例)的置信區(qū)間

不同于大樣本均值的置信區(qū)間關(guān)鍵值是Zα/2/,t檢驗(yàn)的關(guān)鍵字是t α/2 ,下圖為大樣本均值和比例置信區(qū)間公式

t分布的使用
只有當(dāng)總體參數(shù)已知或者樣本容量較大的時(shí)候,才使用z分布進(jìn)行估計(jì),否則使用t分布。一般情況下,在不確定的情況下,使用t分布,因?yàn)樗颖J?/p>

假設(shè)檢驗(yàn),也稱(chēng)作顯著性檢驗(yàn),是利用樣本統(tǒng)計(jì)值對(duì)關(guān)于總體參數(shù)的假設(shè)進(jìn)行評(píng)估檢驗(yàn)的方法和程序。
原假設(shè)(null hypothesis),一個(gè)關(guān)于“沒(méi)有顯著差異”的陳述,記為H0(可以或不可以被拒絕)
備擇假設(shè)(alternative hypothesis),與原假設(shè)相互排斥的對(duì)立假設(shè),即“有顯著差異”的陳述,記為Ha。(是否被驗(yàn)證:如果原假設(shè)被拒絕,即可以被驗(yàn)證,如果原假設(shè)不能被拒絕,即沒(méi)有被驗(yàn)證)

t值計(jì)算
p,即拒絕原假設(shè)放錯(cuò)誤的概率

顯著性水平α

單尾假設(shè)和雙尾假設(shè)
選擇雙尾或單尾檢驗(yàn)的標(biāo)準(zhǔn):除非要強(qiáng)調(diào)檢驗(yàn)的方向(如大于或小于),通常使用雙尾檢驗(yàn),因?yàn)樗J?br> 雙尾檢驗(yàn)
H0:μ=μ0 or μ-μ0=0
H1:μ≠μ0 or μ-μ0≠0
左尾檢驗(yàn)
H0:μ≥μ0 or μ-μ0≥0
H1:μ<μ0 or μ-μ0<0
右尾檢驗(yàn)
H0:μ≤μ0 or μ-μ0≤0
H1:μ>μ0 or μ-μ0>0
計(jì)算方式:現(xiàn)根據(jù)條件計(jì)算出t值(t= (x-μ)/(s/sqrt(n))),然后通過(guò)stata求出p=dis 2*ttail(n-1,t)
如果p<α,就可以拒絕原假設(shè),否則不能拒絕原假設(shè)

總體比例(π)的假設(shè)檢驗(yàn)
用于類(lèi)別(二項(xiàng)分布)變量
檢驗(yàn)過(guò)程和均值假設(shè)檢驗(yàn)一致
關(guān)鍵值t的計(jì)算公式t=(p-π)/sqrt(P(1-P)/n)(π:特定事件發(fā)生的比例為π)

雙變量和多變量分析
單變量分析,對(duì)單一變量的描述和推論統(tǒng)計(jì)分析
雙變量分析,對(duì)兩個(gè)變量之間的關(guān)系~~~
多變量分析,對(duì)三個(gè)或更多個(gè)變量之間的關(guān)系~~~

自變量(independent variable)和因變量(dependent variable)
雙變量分析,一個(gè)自變量一個(gè)因變量
多變量分析,一個(gè)因變量,兩個(gè)或以上個(gè)自變量
結(jié)構(gòu)方程模型,有超過(guò)兩個(gè)的自變量和因變量

雙變量分析

T檢驗(yàn)
T檢驗(yàn),兩個(gè)變量,因變量為定距-定比變量,自變量為定類(lèi)-定序變量,且自變量只有兩類(lèi)(如男性和女性,城市和鄉(xiāng)村,盈利與虧損等),
典型的T檢驗(yàn):檢驗(yàn)兩個(gè)群體(兩類(lèi))的均值是否有顯著差異,如收入是否有顯著性別差異;
擴(kuò)展1:檢驗(yàn)一個(gè)變量的均值跟一個(gè)設(shè)定值之間是否有顯著的差異(即前面的假設(shè)檢驗(yàn)內(nèi)容);
擴(kuò)展2:檢驗(yàn)兩個(gè)變量的均值是否有顯著差異(配對(duì)樣本)

T檢驗(yàn),stata命令
檢驗(yàn)均值與一個(gè)設(shè)定值的差異:ttest varname=x,level=(#)
均值與設(shè)定值檢驗(yàn)方法二:計(jì)算t檢驗(yàn) ttesti obs mean std μ(設(shè)定值),level(#)
方法三:通過(guò)求出置信區(qū)間,看設(shè)定值是否落入?yún)^(qū)間來(lái)判斷:ci varname,level()
檢驗(yàn)兩個(gè)子群體均值的差異:ttest varname,by (group)
檢驗(yàn)兩個(gè)變量均值的差異:ttest varname1=varname2

檢驗(yàn)兩個(gè)群體的均值差異
stata命令驗(yàn)證:ttesti obs1 mean1 sd1 obs2 mean2 sd2,unequal

求出t值后,計(jì)算p值 p=dis 2*ttail(obs1+obs2-2,t)
注意下面

比較兩個(gè)變量均值:配對(duì)樣本
ttest varname1=varname2

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容