国产99视频网站一,97超碰人人妻,操喷久久久久久91

用stata算集中指數(shù)采用Stata系統(tǒng)自帶數(shù)據(jù)庫(kù)auto.dta。

一、集中趨勢(shì)的統(tǒng)計(jì)描述
　　以變量price為例進(jìn)行說(shuō)明。
　　均數(shù)：采用mean price計(jì)算得6165.257。
　　算術(shù)均數(shù)、幾何均數(shù)和調(diào)和均數(shù)可以采用means、ameans、gmeans、hmeans計(jì)算。
　　眾數(shù)：沒(méi)有對(duì)應(yīng)的命令可以直接計(jì)算眾數(shù)，但是可以通過(guò)幾種策略進(jìn)行變通計(jì)算。如通過(guò)egen x=mode(price); disp x; drop x，不過(guò)本例中price中沒(méi)有相同的數(shù)值，所以無(wú)法計(jì)算眾數(shù)；另外也可通過(guò)preserve; contract price, freq(x); sum x; list price if x==r(max); restore 來(lái)顯示。
　　中位數(shù)：centile price或tabstat price, s(med)，當(dāng)然tabstat還可以計(jì)算均數(shù)、樣本量、標(biāo)準(zhǔn)差，標(biāo)準(zhǔn)誤、方差、極差、四分位間距、變異系數(shù)、峰度系數(shù)、偏度系數(shù)等等很多指標(biāo)。
　　不過(guò)采用Stata（summarize ，tabstat等命令）計(jì)算的峰度系數(shù)與Excel、SPSS和SAS計(jì)算的結(jié)果有所不同，原因是采用的公式不同，大家根據(jù)實(shí)際情況來(lái)選擇。
　　二、離散趨勢(shì)指標(biāo)
　　極差（全距）：tabstat price, s(r)
　　標(biāo)準(zhǔn)差：tabstat price, s(sd)
　　方差：tabstat price, s(v)
　　四分位間距：tabstat price, s(iqr)
　　變異系數(shù)：tabstat price, s(cv)
　　采用summarize ， detail命令可以計(jì)算均數(shù)、標(biāo)準(zhǔn)差、峰度系數(shù)、偏度系數(shù)、多個(gè)百分位數(shù)。不加detial可以得到最大值、最小值。

回歸分析
一、概念介紹
R2，又叫做決定系數(shù)（coefficient of determination），是來(lái)說(shuō)明自變量解釋因變量變化百分比的度量，R2越接近1，表示回歸越成功。

pearson相關(guān)系數(shù)（Pearson‘s correlation coefficient），用字母r表示，主要描述線(xiàn)性相關(guān)強(qiáng)度的量，取值（-1，1）之間，當(dāng)兩個(gè)變量有很強(qiáng)的線(xiàn)性相關(guān)時(shí)，相關(guān)系數(shù)接近于1（正相關(guān)）

最小二乘法（least squares regression），最小二乘法就是尋找一條直線(xiàn)，使得所有點(diǎn)到該直線(xiàn)的垂直距離的平方和最小，也就是方差最小

F分布，

X2分布（卡方分布）

t分布
比較樣本均值所代表的未知總體均值μ和已知總體均值μ1的異同。
類(lèi)型：獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn)

week4
正態(tài)分布：一條呈鐘形的對(duì)稱(chēng)曲線(xiàn)。對(duì)于一個(gè)服從正態(tài)分布的隨機(jī)變量，它的均值、眾數(shù)和中位數(shù)相同，都在概率分布曲線(xiàn)的最高點(diǎn)上。其相對(duì) 頻率從中間逐漸向兩端遞減。
與中央極限定理的關(guān)系，是經(jīng)典統(tǒng)計(jì)估計(jì)的基石。
判斷標(biāo)準(zhǔn)：1、看頻數(shù)（百分比）分布形狀；2、計(jì)算均值（70.7）、中位數(shù)（70）與眾數(shù)（70）。

均值決定正態(tài)分布中心的位置，標(biāo)準(zhǔn)差決定正太分布鐘形的形狀。標(biāo)準(zhǔn)差決定正態(tài)分布的鐘形形狀——標(biāo)準(zhǔn)差越大，鐘形越扁平

標(biāo)準(zhǔn)正態(tài)分布：均值為0，標(biāo)準(zhǔn)差為1的正太分布為標(biāo)準(zhǔn)正太分布，亦稱(chēng)為Z分布，Z的單位與標(biāo)準(zhǔn)差的長(zhǎng)度相同。一般正太分布值轉(zhuǎn)為標(biāo)準(zhǔn)正太分布：Z=（x-μ）/σ
Z值在某一范圍的概率即相應(yīng)范圍內(nèi)概率分布曲線(xiàn) 下的面積。
p（Z<1.96）stata表示為：display normal(1.96)；p（Z>1.96）stata表示為：1-display normal(1.96)，如計(jì)算全體員工成績(jī)（μ=70.07，σ=10.27），想知道成績(jī)位于均值到85之間的比例
解：display normal((85-70.07)/10.27)-.5（其中原理就是先轉(zhuǎn)化為標(biāo)準(zhǔn)正太分布值，然后求出標(biāo)準(zhǔn)下的面積，再減去平均值0.5）；反過(guò)來(lái)如果想通過(guò)比例求出分?jǐn)?shù)線(xiàn)，即已知Z值，求x，x=Zσ+μ，stata代碼：dis invnormal(.9)10.27+70.07（求處于公司前10%的分?jǐn)?shù)線(xiàn)）

檢查變量是否正太分布

symmetry plot：對(duì)稱(chēng)圖，用來(lái)判斷樣本數(shù)據(jù)的分布是否是對(duì)稱(chēng)的。symmetry plot在判斷樣本數(shù)據(jù)是否符合對(duì)稱(chēng)分布時(shí)會(huì)有一條reference line 即參考線(xiàn)，這是一條完美的對(duì)稱(chēng)分布數(shù)據(jù)，樣本數(shù)據(jù)越接近這條線(xiàn)，越對(duì)稱(chēng)。stata命令：symplot varname
qnorm:畫(huà)出一幅分位-正太標(biāo)繪圖，就是比較樣本數(shù)據(jù)和正態(tài)分布數(shù)據(jù)在各個(gè)分位數(shù)上的差異
kdensity:是一種估計(jì)對(duì)給定樣本集合點(diǎn)隨機(jī)變量分布的密度函數(shù)，屬于非參數(shù)估計(jì)（參數(shù)估計(jì)指先驗(yàn)的假定數(shù)據(jù)符合某種特定的性態(tài)，如線(xiàn)性的、指數(shù)性態(tài)的等，由此判斷數(shù)據(jù)樣本是否符合這種分布），而非參數(shù)估計(jì)方法則不同，它對(duì)數(shù)據(jù)分布不附加任何假定，是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布的方法。

抽樣分布
抽樣誤差：樣本的統(tǒng)計(jì)值（statistic）與總體參數(shù) （parameter）之間的差異
中央極限定理：對(duì)于一個(gè)均值為μ，標(biāo)準(zhǔn)差為σ的總體，無(wú)論它本身是否服從正太分布，如果無(wú)數(shù)次從總體中抽取樣本量為n的樣本，隨著n 的增大，那么樣本均值的分布將服從均值為μ，標(biāo)準(zhǔn)差為σ/根號(hào)n的正太分布，即：

比例的抽樣分布：對(duì)于一個(gè)某特定時(shí)間發(fā)生比例為π的總體，如果從中無(wú)限次抽取樣本量為n的樣本，那么隨著n的增大，樣本比例P的分布將服從均值為π，標(biāo)準(zhǔn)差為根號(hào)下π（1-π）/n,即

例題：某公司男女人數(shù)相同，現(xiàn)在隨機(jī)抽取100名員工，問(wèn)樣本中男人人數(shù)大于等于60人概率是多少？
dis sqrt(0.5*0.5/100) #求出標(biāo)準(zhǔn)差為0.05，所以這是一個(gè)均值為0.5，標(biāo)準(zhǔn)差為0.05的正太分布
dis (0.6-0.5)/0.05 #轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布，求出Z=0.2
dis 1-normal(2) #求出的就是大于等于60%的面積=0.022

置信區(qū)間
通過(guò)統(tǒng)計(jì)推斷找到包括樣本統(tǒng)計(jì)量在內(nèi)的一個(gè)區(qū)間；即通過(guò)有限樣本，估計(jì)出未知參數(shù)以多大的概率在某一區(qū)間內(nèi)取值。根據(jù)樣本均值分布特點(diǎn)，該區(qū)間被認(rèn)為包含總體參數(shù)。

置信水平（1-α）
總體參數(shù)落入某區(qū)間的概率。也就是“準(zhǔn)確估計(jì)”的信心。而α稱(chēng)為錯(cuò)誤水平。常用置信水平：95%、99%

計(jì)算置信區(qū)間的通用公式
公式：點(diǎn)估計(jì)值+-（關(guān)鍵值）*（標(biāo)準(zhǔn)誤差）
點(diǎn)估計(jì)值，指樣本統(tǒng)計(jì)值（均值、比例）
關(guān)鍵值，指根據(jù)抽樣分布和置信水平?jīng)Q定的一個(gè)固定值Z α/2，如95%的置信區(qū)間，Z α/2=±1.96
標(biāo)準(zhǔn)誤差是抽樣分布的標(biāo)準(zhǔn)差：σ/sqrt(n)

例子

均值的置信區(qū)間規(guī)律
置信水平相同的情況下，樣本量越大，區(qū)間越??；
樣本量相同的情況下，置信水平越高，區(qū)間越大（這是因?yàn)橛捎跀?shù)據(jù)樣本相同，要想滿(mǎn)足更高的置信水平，就必須有更大的置信區(qū)間，這樣才能保證樣本數(shù)據(jù)可以更正確的落入該區(qū)間）
區(qū)間越大，總體均值落在其間的可能性越大，估計(jì)正確的概率越大（犯錯(cuò)誤的可能性越?。?，但估計(jì)的精確度越??；區(qū)間越小，估計(jì)的精確度越大，但估計(jì)錯(cuò)誤的概率也越大

求置信區(qū)間的stata命令
dis 平均值+-關(guān)鍵值*（標(biāo)準(zhǔn)差/根號(hào)下樣本量n）
ci var，level（）

小樣本參數(shù)估計(jì)：t分布
t分布:參數(shù)估計(jì)的過(guò)程中，當(dāng)總體標(biāo)準(zhǔn)差未知時(shí)，我們使用樣本的標(biāo)準(zhǔn)差代替。但是這種處理方式僅適用于樣本數(shù)量較大時(shí)，樣本數(shù)量小的話(huà)就會(huì)影響精度。因此，我們通常用t分布對(duì)小樣本均值（比例）進(jìn)行估計(jì)

t分布作用：比較樣本均值所代表的未知總體均值μ和已知總體均值μ1的異同。
類(lèi)型：獨(dú)立樣本t檢驗(yàn)和配對(duì)樣本t檢驗(yàn)

t分布公式和性質(zhì)
μ指平均值，s指樣本標(biāo)準(zhǔn)差

小樣本均值（比例）的置信區(qū)間

不同于大樣本均值的置信區(qū)間關(guān)鍵值是Zα/2/,t檢驗(yàn)的關(guān)鍵字是t α/2 ,下圖為大樣本均值和比例置信區(qū)間公式

t分布的使用
只有當(dāng)總體參數(shù)已知或者樣本容量較大的時(shí)候，才使用z分布進(jìn)行估計(jì)，否則使用t分布。一般情況下，在不確定的情況下，使用t分布，因?yàn)樗颖Ｊ?/p>

假設(shè)檢驗(yàn)，也稱(chēng)作顯著性檢驗(yàn)，是利用樣本統(tǒng)計(jì)值對(duì)關(guān)于總體參數(shù)的假設(shè)進(jìn)行評(píng)估檢驗(yàn)的方法和程序。
原假設(shè)（null hypothesis），一個(gè)關(guān)于“沒(méi)有顯著差異”的陳述，記為H0（可以或不可以被拒絕）
備擇假設(shè)（alternative hypothesis），與原假設(shè)相互排斥的對(duì)立假設(shè)，即“有顯著差異”的陳述，記為Ha。（是否被驗(yàn)證：如果原假設(shè)被拒絕，即可以被驗(yàn)證，如果原假設(shè)不能被拒絕，即沒(méi)有被驗(yàn)證）

t值計(jì)算
p，即拒絕原假設(shè)放錯(cuò)誤的概率

顯著性水平α

單尾假設(shè)和雙尾假設(shè)
選擇雙尾或單尾檢驗(yàn)的標(biāo)準(zhǔn)：除非要強(qiáng)調(diào)檢驗(yàn)的方向（如大于或小于），通常使用雙尾檢驗(yàn)，因?yàn)樗Ｊ?br> 雙尾檢驗(yàn)
H0：μ=μ0 or μ-μ0=0
H1：μ≠μ0 or μ-μ0≠0
左尾檢驗(yàn)
H0：μ≥μ0 or μ-μ0≥0
H1：μ＜μ0 or μ-μ0＜0
右尾檢驗(yàn)
H0：μ≤μ0 or μ-μ0≤0
H1：μ＞μ0 or μ-μ0＞0
計(jì)算方式：現(xiàn)根據(jù)條件計(jì)算出t值（t= （x-μ)/(s/sqrt(n))），然后通過(guò)stata求出p=dis 2*ttail（n-1，t）
如果p<α，就可以拒絕原假設(shè)，否則不能拒絕原假設(shè)

總體比例(π)的假設(shè)檢驗(yàn)
用于類(lèi)別（二項(xiàng)分布）變量
檢驗(yàn)過(guò)程和均值假設(shè)檢驗(yàn)一致
關(guān)鍵值t的計(jì)算公式t=（p-π）/sqrt(P(1-P)/n)（π：特定事件發(fā)生的比例為π）

雙變量和多變量分析
單變量分析，對(duì)單一變量的描述和推論統(tǒng)計(jì)分析
雙變量分析，對(duì)兩個(gè)變量之間的關(guān)系~~~
多變量分析，對(duì)三個(gè)或更多個(gè)變量之間的關(guān)系~~~

自變量（independent variable）和因變量（dependent variable）
雙變量分析，一個(gè)自變量一個(gè)因變量
多變量分析，一個(gè)因變量，兩個(gè)或以上個(gè)自變量
結(jié)構(gòu)方程模型，有超過(guò)兩個(gè)的自變量和因變量

雙變量分析

T檢驗(yàn)
T檢驗(yàn)，兩個(gè)變量，因變量為定距-定比變量，自變量為定類(lèi)-定序變量，且自變量只有兩類(lèi)（如男性和女性，城市和鄉(xiāng)村，盈利與虧損等），
典型的T檢驗(yàn)：檢驗(yàn)兩個(gè)群體（兩類(lèi)）的均值是否有顯著差異，如收入是否有顯著性別差異；
擴(kuò)展1：檢驗(yàn)一個(gè)變量的均值跟一個(gè)設(shè)定值之間是否有顯著的差異（即前面的假設(shè)檢驗(yàn)內(nèi)容）；
擴(kuò)展2：檢驗(yàn)兩個(gè)變量的均值是否有顯著差異（配對(duì)樣本）

T檢驗(yàn)，stata命令
檢驗(yàn)均值與一個(gè)設(shè)定值的差異：ttest varname=x,level=(#)
均值與設(shè)定值檢驗(yàn)方法二：計(jì)算t檢驗(yàn) ttesti obs mean std μ（設(shè)定值），level（#）
方法三：通過(guò)求出置信區(qū)間，看設(shè)定值是否落入?yún)^(qū)間來(lái)判斷：ci varname,level()
檢驗(yàn)兩個(gè)子群體均值的差異：ttest varname,by (group)
檢驗(yàn)兩個(gè)變量均值的差異：ttest varname1=varname2

檢驗(yàn)兩個(gè)群體的均值差異
stata命令驗(yàn)證：ttesti obs1 mean1 sd1 obs2 mean2 sd2,unequal

求出t值后，計(jì)算p值 p=dis 2*ttail（obs1+obs2-2，t）
注意下面

比較兩個(gè)變量均值：配對(duì)樣本
ttest varname1=varname2

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

定量數(shù)據(jù)分析筆記

定量數(shù)據(jù)分析筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

定量數(shù)據(jù)分析筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av