統(tǒng)計學期末

第一章 導 論

1.什么是統(tǒng)計學

  • 統(tǒng)計學是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學
  • 數(shù)據(jù)分析所用的方法可分為描述統(tǒng)計方法推斷統(tǒng)計方法

2.參數(shù)和統(tǒng)計量

  • 參數(shù):總體特征,所關(guān)心的參數(shù)通常是總體平均數(shù)、總體標準差、總體比例等

    由于總體數(shù)據(jù)通常是不知道的,所以參數(shù)是一個未知的常量-

  • 統(tǒng)計量:個體特征,所關(guān)心的參數(shù)通常是樣本平均數(shù)、樣本標準差、樣本比例等

    由于樣本是已經(jīng)抽出來的,所以統(tǒng)計量總是知道的

第二章 數(shù)據(jù)的搜集

1.數(shù)據(jù)的來源

  • 間接來源(二手數(shù)據(jù))與研究內(nèi)容有關(guān)的原信息已經(jīng)存在,我們只是重新加工、整理,使之成為分析可用的數(shù)據(jù),這稱為間接來源的數(shù)據(jù)
  • 直接來源(一手數(shù)據(jù))通過調(diào)查方法獲得的為調(diào)查數(shù)據(jù),實驗得到為實驗數(shù)據(jù),都是直接來源的數(shù)據(jù)

2.數(shù)據(jù)誤差

  • 抽樣誤差:由抽樣的隨機性引起的樣本結(jié)果與總體真值之間的差異
  • 非抽樣誤差:抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差

第三章 數(shù)據(jù)的圖表展示

1.數(shù)據(jù)預處理

  • 原始數(shù)據(jù):完整性、準確性
  • 二手數(shù)據(jù):適用性、時效性

2.分類數(shù)據(jù)圖示

數(shù)據(jù)的類型與主要圖示方法

帕累托圖

環(huán)形圖

1> 組數(shù) 5≤ K ≤15

2> 組距 組距=(Max-Min)/K

3> 為解決不重的問題,統(tǒng)計分組習慣上規(guī)定“上組限不在內(nèi)”,即當相鄰兩組的上下限重疊時,恰好等于某一組上限的變量值不算在本組內(nèi),而計算在下一組內(nèi)。即a≤ x <b

第四章 數(shù)據(jù)的概括性度量

1.集中趨勢的度量

不同分布的眾數(shù)、中位數(shù)和平均數(shù) Me表示中位數(shù)
  • 眾數(shù)不受極端值影響,具有不唯一性
  • 中位數(shù)不受極端值影響,數(shù)據(jù)分布偏斜程度較大時
  • 平均數(shù)易受極端值影響

2.離散程度的度量

離散程度度量
  • 標準分數(shù):也稱標準化值或z分數(shù)(將數(shù)據(jù)平均值變?yōu)?,標準差為1)
    z_i=\frac{x_i-\overline{x}}{s}

  • 經(jīng)驗法則:對稱分布

  • 切比雪夫不等式:不是對稱分布

離散系數(shù)
v_s=\frac{s}{\overline{x}}

離散系數(shù)越大,數(shù)據(jù)離散程度越大

3.偏態(tài)與峰態(tài)

  • 偏態(tài) SK:數(shù)據(jù)對稱性測度

    SK = 0 分布對稱

    SK > 0 右偏

    SK < 0 左偏

    SK > 1或者SK < -1 高度偏態(tài)分布

    SK在0.51或-1-0.5 之間,中等偏態(tài)分布

    SK越接近0,偏斜程度越小

  • 峰態(tài) K:數(shù)據(jù)分布平峰或尖峰程度的測量

    K > 0 尖峰分布,數(shù)據(jù)分布更集中

    K < 0 扁平分布,數(shù)據(jù)分布越分散

第五章 概率與概率分布

正態(tài)分布

X服從正態(tài)分布,記作X~N(\mu,\sigma^2)

參數(shù)對曲線位置形狀影響

\mu決定圖形中心位置,\sigma決定曲線陡峭程度

標準正態(tài)分布

\mu=0,\sigma=1時 ,X~N(0,1),即X服從標準正態(tài)分布

第六章 統(tǒng)計量及其抽樣分布

1.由正態(tài)分布導出的幾個重要分布

  • 卡方分布

E(Y) = n ,D(Y) = 2n

  • t分布

小樣本方法

n≥2,E(t) = 0

n ≥ 3, D(t) = \frac{n}{n-2}

  • F分布

方差分析,回歸方程的顯著性檢驗

n>2,E(X)=\frac{n}{n-2}

n>4,D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)}

如果隨機變量X服從t(n)分布,則X^2服從F(1,n)的F分布=>回歸分析回歸系數(shù)顯著性檢驗

2.中心極限定理

定義:設從均值為\mu、方差為\sigma^2(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時(n≥30),樣本均值\overline{x}的抽樣分布近似服從從均值為\mu,方差為\frac{\sigma^2}{n}的正態(tài)分布

第七章 參數(shù)估計

1.參數(shù)估計基本原理

置信區(qū)間:在區(qū)間估計中,由樣本統(tǒng)計量所構(gòu)造的總體參數(shù)的估計區(qū)間稱為置信區(qū)間

置信水平:如果將構(gòu)造置信區(qū)間的步驟重復多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平(置信度或置信系數(shù))

  • 如果用某種方法構(gòu)造的所有區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值,5%的區(qū)間不包含,那么,用該方法構(gòu)造的區(qū)間稱為置信水平為95%的置信區(qū)間

  • 總體參數(shù)的真值是固定的、未知的,而樣本構(gòu)造的區(qū)間則是不固定的。因此,置信區(qū)間是一個隨機區(qū)間,因樣本的不同而不同

  • 實際問題中,進行估計時往往只抽取一個樣本。只是一個特定區(qū)間而不再是隨機區(qū)間,所以無法知道這個樣本所產(chǎn)生的區(qū)間是否包含總體參數(shù)的真值。

    比如,用95%的置信水平得到某班學生考試成績的置信區(qū)間為60-80分,我們不能說60-80分這個區(qū)間以95%的概率包含全班學生平均考試成績的真值,或者說全班學生的平均考試成績以95%的概率落在60-80分之間,這類表述是錯誤的,因為總體均值p是一個常數(shù),而不是一個隨機變量。p要么落在這個范圍內(nèi),要么不在這個范圍內(nèi),這里并不涉及概率。我們只是知道在多次抽樣中有95%的樣本得到的區(qū)間包含全班學生平均考試成績的真值。它的真正意義是如果做了100次抽樣,大概有95次找到的區(qū)間包含真值,有5次找到的區(qū)間不包含真值。假定全班考試成績平均數(shù)的真值為70分,60-80分這個區(qū)間一定包含真值,如果全班考試成績平均數(shù)的真值為50分,那么區(qū)間60~80分就絕對不包含真值,無論做多少次試驗。因此,這個概率不是用來描述某個特定的區(qū)間包含總體參數(shù)真值的可能性,而是針對隨機區(qū)間而言的。一個特定的區(qū)間"總是包含"或"絕對不包含"參數(shù)的真值,不存在"以多大的概率包含總體參數(shù)"的問題。但是,用概率可以知道在多次抽樣得到的區(qū)間中大概有多少個區(qū)間包含參數(shù)的真值。

    評價估計量的標準:無偏性、有效性、一致性

2.一個總體參數(shù)的區(qū)間估計

  • 總體均值的區(qū)間估計

    “正態(tài)總體、方差已知或非正態(tài)總體、大樣本”

    總體均值μ在1- α 置信水平下的置信區(qū)間為:
    \overline{x}±z_{α/2}\frac{σ}{\sqrt n}

    置信水平1- α = 95%,z_{α/2}=1.96

    例題:
不同情況下總體均值的區(qū)間估計
  • 總體比例的區(qū)間估計
    p±z_{α/2}\sqrt {\frac {p(1-p)}{n}}

    p是樣本比例

    α 是顯著性水平

    z_{α/2} 是標準正態(tài)分布右側(cè)面積為α/2是的z值

    z_{α/2}\sqrt {\frac {p(1-p)}{n}}是估計總體比例時的估計誤差

例題:

第八章 假設檢驗

1.假設檢驗的基本問題

  • 原假設,備擇假設:原假設與備擇假設互斥

  • 兩類錯誤

    • 第 Ⅰ類錯誤是原假設H_0為真卻被拒絕,犯這種錯誤的概率用α 表示,也稱α 錯誤或棄真錯誤
    • 第Ⅱ類錯誤是原假設為偽卻沒有拒絕,犯這種錯誤的概率用 β表示也稱β錯誤或取偽錯誤
  • 假設檢驗流程

    • σ已知,大樣本

      |z|<|z_{α/2}|,不拒絕H0

      |z|>|z_{α/2}|,拒絕H0

    • 利用P值(事先給定α=0.05)

      • 雙側(cè)檢驗:P>0.025不拒絕原假設,P< 0.025拒絕原假設
      • 單側(cè)檢驗:P>0.05不拒絕原假設,P< 0.05拒絕原假設
  • 單側(cè)檢驗

    一些情況下,我們關(guān)心的假設問題帶有方向性

    • 數(shù)值越大越好,使用壽命等,左單側(cè)檢驗
    • 數(shù)值越小越好,不合格率等,右單側(cè)檢驗

正確選擇雙側(cè)檢驗和單側(cè)檢驗

2.一個總體參數(shù)的檢驗

  • 總體均值的檢驗

    • 樣本量大

      |z| 與 |z_α|

    • 小樣本,σ已知

      |z| 與 |z_α| 或者 P值

    • 小樣本,σ未知

      t 與 t_{α/2}

  • 總體比例的檢驗

    當α=0.05時,z_{α/2}=±1.96,比較|z| 與 |z_{α/2}|

第九章 分類數(shù)據(jù)分析

1.擬合優(yōu)度檢驗

根據(jù)總體的分布狀況,計算出分類變量中各類別的期望頻數(shù),與分布的觀察頻數(shù)進行對比,判斷期望頻數(shù)觀察頻數(shù)是否有顯著差異,從而達到對分類變量進行分析的目的。

在泰坦尼克號的例子中,我們關(guān)注在這次海難中幸存者的性別是否有顯著差異,當時船上共有2208人,其中男性1738人,女性470人。海難發(fā)生后,幸存者共718人,其中男性374人,女性344人。海難后存活比率為 718/2 208=0.325.如果是否活下來與性別沒有關(guān)系,那么按照這個比率,在1738位男性中應該存活1738×0.325=565人,在470位女性中應該存活 470×0.325=153人。565和153就是期望頻數(shù),而實際存活結(jié)果就是觀察頻數(shù)。通過期望頻數(shù)和觀察頻數(shù)的比較,能夠從統(tǒng)計角度做出存活與性別是否有關(guān)的判斷。

原假設:一致

2.獨立性檢驗

獨立性檢驗就是分析列聯(lián)表中的行變量和列變量是否相互獨立,是否存在依賴關(guān)系

原假設:不存在依賴關(guān)系

第十章 方差分析

1.單因素方差分析

方差分析(ANOVA):通過檢驗各總體的均值是否相等來判斷分類型自變量數(shù)值型因變量是否有顯著影響

因素(因子):方差分析中所要檢驗的對象

水平(處理):因素的不同表現(xiàn)

單因素方差分析:只有一個因素的方差分析

例如,行業(yè)為因素,零售業(yè)、旅游業(yè)、家電制造業(yè)等屬于水平

總平方和 SST(sum of squares for total):全部觀測值與總均值的誤差平方和。

組間平方和 SSA(sun of squares for factor A):各組均值與總均值的誤差平方和,反映個樣本均值之間的差異程度,因此又稱為因素平方和。

組內(nèi)平方和 SSE(sum of squares for error):每個水平或組的各樣本數(shù)據(jù)與其總均值的誤差平方和,反映每個樣本各觀測值的離散狀況,因此又稱誤差平方和。
SST = SSA + SSE

方差分析表

誤差來源 平方和SS 自由度df 均方MS F值 P值 F臨界值
組間(因素影響) SSA k-1 MSA MSA/MSE
組內(nèi)(誤差) SSE n-k MSE
總 和 SST n-1

n為全部觀測值個數(shù) ;k為因素水平(總體)的個數(shù);MS=SS / df

2.雙因素方差分析

第十一章 一元線性回歸

相關(guān)系數(shù):根據(jù)樣本數(shù)據(jù)計算的度量兩個變量之間線性關(guān)系強度的統(tǒng)計量

ρ:總體相關(guān)系數(shù),根據(jù)總體全部數(shù)據(jù)計算的

r:樣本相關(guān)系數(shù),根據(jù)樣本數(shù)據(jù)計算的

[-1,0) ==> 負線性相關(guān)

(0,1] ==> 正線性相關(guān)

r = -1==>完全負線性相關(guān)關(guān)系

r=1 ==>完全正線性相關(guān)關(guān)系

相關(guān)程度:

第十三章 時間序列分析和預測

1.時間序列及其分解

時間序列:同一現(xiàn)象在不同時間的相繼觀察值排列而成的序列,分為平穩(wěn)序列非平穩(wěn)序列

趨勢:時間序列在長期內(nèi)呈現(xiàn)出來的某種持續(xù)上升或持續(xù)下降的變動

季節(jié)性(季節(jié)變動):時間序列在一年內(nèi)重復出現(xiàn)的周期性波動。

2.增長率分析

  • 增長率:也稱增長速度,是時間序列中報告期觀察值與基期觀察值之比減1后的結(jié)果,用%表示

    • 環(huán)比增長率:報告期觀察值與前一時期觀察值之比減1的結(jié)果,說明現(xiàn)象逐期增長變化的程度
      G_i=\frac{Y_i-Y_{i-1}}{Y_{i-1}}=\frac{Y_i}{Y_{i-1}}-1,i=1,2,...,n
  • 定基增長率:報告期觀察值與某一固定時期觀察值之比減1的結(jié)果,說明現(xiàn)象在整個觀察期內(nèi)總的增長變化程度
    G_i=\frac{Y_i-Y_0}{Y_0}=\frac{Y_i}{Y_0}-1,i=1,2,...,n
  • 平均增長率:也稱平均增長速度,時間序列中逐期環(huán)比值(也稱環(huán)比發(fā)展速度)的幾何平均數(shù)減1后的結(jié)果
    \overline{G}=\sqrt[n]{\frac{Y_n}{Y_0}-1}

\overline{G}表示平均增長率;n表示環(huán)比值的個數(shù)

第十四章 指數(shù)

1.簡單指數(shù)

簡單綜合指數(shù):將報告期的指數(shù)總和與基期的指標總和相對比的指數(shù)
I_p=\frac{\sum p_1}{\sum p_0}
I_q=\frac{\sum q_1}{\sum q_0}

p——質(zhì)量指標

q——數(shù)量指標

I_p——質(zhì)量指標指數(shù)

I_q——數(shù)量指標指數(shù)

下標1——報告期

下標0——基期

簡單平均指數(shù)
I_p=\frac{\sum \frac{p_1}{p_0}}{n}
I_q=\frac{\sum \frac{q_1}{q_0}}{n}

2.加權(quán)指數(shù)

加權(quán)綜合指數(shù)

  • 拉氏指數(shù):將作為權(quán)數(shù)的同度量因素固定在基期
    I_q=\frac{\sum q_1p_0}{\sum q_0p_0}
    I_p=\frac{\sum q_0p_1}{\sum q_0p_0}

  • 帕氏指數(shù):將作為權(quán)數(shù)的同度量因素固定在報告期
    I_q=\frac{\sum q_1p_1}{\sum q_0p_1}

    I_q=\frac{\sum q_1p_1}{\sum q_1p_0}

    大多數(shù)的看法是,計算數(shù)量指數(shù)(如生產(chǎn)量指數(shù))時,權(quán)數(shù)(價格)應該定在基期,這樣才能剔除價格變動的影響,準確反映生產(chǎn)量的變化,按不變價計算產(chǎn)量指數(shù)就是出于這個原因。計算質(zhì)量指數(shù)(如價格指數(shù))時,不同時期的權(quán)數(shù)含義不同:若權(quán)數(shù)定在基期,反映的是在基期商品(產(chǎn)品)結(jié)構(gòu)下價格的整體變動,更能揭示價格變動的內(nèi)容;若權(quán)數(shù)定在報告期,反映的是在現(xiàn)實商品(產(chǎn)品)結(jié)構(gòu)下價格的整體變動,商品(產(chǎn)品)結(jié)構(gòu)變化的影響會融入價格指數(shù),更能揭示價格變動的實際影響。編制指數(shù)的目的不同,權(quán)數(shù)確定的時期就可以不同。

加權(quán)平均指數(shù)

。。。

指數(shù)計算

采用加權(quán)平均的方法
I_p=\frac{\sum iW}{\sum W}

i為代表規(guī)格品個數(shù)指數(shù)或各層的類指數(shù);

W為相應的消費支出比重

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容