數(shù)據(jù)分析方法
描述統(tǒng)計(jì) 數(shù)據(jù)收集、處理、匯總、圖表描述、概括與分析等
推斷統(tǒng)計(jì) 樣本數(shù)據(jù)推斷總體特征
統(tǒng)計(jì)數(shù)據(jù)的類型:
A. 分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)
B. 觀測(cè)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)
C. 截面數(shù)據(jù)、時(shí)間序列數(shù)據(jù)

基本概念:總體 population
樣本 sample 樣本量 sample size
參數(shù) parameter → 用于描述總體特征的概括性數(shù)字度量,如總體平均數(shù)、總體標(biāo)準(zhǔn)差等,一般用希臘字母表示,如μ
統(tǒng)計(jì)量 statistic → 用于描述樣本特征的概括性數(shù)字度量,如樣本平均數(shù),樣本標(biāo)準(zhǔn)差等,一般用英文字母表示,如s(樣本標(biāo)準(zhǔn)差)
抽樣的目的就是要根據(jù)樣本統(tǒng)計(jì)量去估計(jì)總體參數(shù),除了一般樣本方差之類的統(tǒng)計(jì)量,還有一些為了統(tǒng)計(jì)分析構(gòu)造出來的統(tǒng)計(jì)量,如z統(tǒng)計(jì)量,t統(tǒng)計(jì)量,F(xiàn)統(tǒng)計(jì)量等

統(tǒng)計(jì)數(shù)據(jù)就是統(tǒng)計(jì)變量的某些取值,統(tǒng)計(jì)變量可以分為分類變量、順序變量和數(shù)值型變量
數(shù)據(jù)抽樣
概率抽樣 probability sampling / 隨機(jī)抽樣
隨機(jī)需要按照給定的入樣概率,通過一定的隨機(jī)話程序抽取樣本單元
概率抽樣 分為 等概率抽樣(總體中每個(gè)單位都有一定的非零概率被抽中)和不等概率抽樣
實(shí)驗(yàn)數(shù)據(jù):指在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象而收集到的變量的數(shù)據(jù)
數(shù)據(jù)誤差:抽樣誤差和非抽樣誤差
抽樣誤差:抽樣的隨機(jī)性引起的樣本結(jié)果與總體真值之間的誤差
抽樣誤差并不是針對(duì)某個(gè)具體樣本的檢測(cè)結(jié)果與總體真實(shí)結(jié)果的差異而言,而是描述所有樣本可能的結(jié)果與總體真值之間的平均差異
抽樣誤差大小最主要與樣本量大小有關(guān),樣本量越大,抽樣誤差越小
也與總體的變異性有關(guān),各單位之間的差異性越大,抽樣誤差越大
抽樣誤差可以計(jì)算
數(shù)據(jù)的圖表展示
數(shù)值型數(shù)據(jù)排序后的數(shù)據(jù)成為順序統(tǒng)計(jì)量
Excel中的數(shù)據(jù)透視表的使用
頻數(shù)指落在某一特定類別或組中的數(shù)據(jù)個(gè)數(shù),把各個(gè)類別及落在其中的相應(yīng)頻數(shù)全部列出,并用表格形式表現(xiàn)出來,成為頻數(shù)分布。
Excel制作分類數(shù)據(jù)的頻數(shù)分布表/交叉制表
比例 proportion 是一個(gè)樣本/總體中各個(gè)部分?jǐn)?shù)據(jù)與全部數(shù)據(jù)之比 → *100% = 百分比
比率是樣本/總體中不同類別數(shù)據(jù)之間的比值,比率可能> 1
條形圖、柱形圖
帕累托圖
按各類別數(shù)據(jù)出現(xiàn)的頻數(shù)多少排序后繪制的條形圖
餅圖
主要用于一個(gè)樣本/總體中各組成部分?jǐn)?shù)據(jù)占全部數(shù)據(jù)的比例,有利于研究結(jié)構(gòu)性問題
復(fù)式餅圖:用于展示兩個(gè)或多個(gè)分類標(biāo)量的構(gòu)成情況
環(huán)形圖
每個(gè)樣本用一個(gè)環(huán)表示,樣本中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示,因此環(huán)形圖可顯示多個(gè)樣本各部分所占的相應(yīng)比例
累積頻數(shù)
累積頻率
數(shù)值型數(shù)據(jù)的整理與展示
組距,一個(gè)組的最小值稱為下限,一個(gè)組的最大值稱為上限
a ≤ x < b 上組限不在內(nèi)解決不重的問題
組中值 = (下限值 + 上限值) / 2
使用組中值代表一組數(shù)據(jù)必要條件:各組數(shù)據(jù)在本組內(nèi)呈均勻分布或在組中值兩側(cè)呈對(duì)稱分布。
直方圖是用于展示分組數(shù)據(jù)分布的一種圖形,它是用矩形的寬度和高度(即面積)來表示頻數(shù)分布的,橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率
直方圖與條形圖不相同
條形圖主要用于展示分類數(shù)據(jù),直方圖主要用于展示數(shù)值型數(shù)據(jù)
莖葉圖
反映原始數(shù)據(jù)分布的圖形
箱線圖
由一組數(shù)據(jù)的最大值,最小值,中位數(shù),兩個(gè)四分位數(shù)這五個(gè)特征值繪制而成
線圖 時(shí)間序列數(shù)據(jù)
用于反映現(xiàn)象隨時(shí)間變化的特征
多變量圖示方法
散點(diǎn)圖、氣泡圖、雷達(dá)圖
散點(diǎn)圖 x,y橫縱軸,兩個(gè)變量
氣泡圖,xyz,氣泡大小表示第三個(gè)變量z



