統(tǒng)計學(xué)筆記1:數(shù)據(jù)與圖形描述

記錄了一些基本概念的定義。

1. 數(shù)據(jù)

基本定義

數(shù)據(jù)(data):描述和解釋所搜集,分析,匯總的事實和數(shù)字。
數(shù)據(jù)集(data set):用于特定研究而搜集的所有數(shù)據(jù)。
個體(element):搜集數(shù)據(jù)的實體。
變量(variable):個體中感興趣的特征。
觀測值(observation):對某一特定個體得到的測量值集合。

觀測值個數(shù) = 測量值個數(shù)
數(shù)據(jù)項總數(shù) = 個體個數(shù) * 變量總數(shù)

四種測量尺度(measure scale):

名義尺度(nominal scale):變量的數(shù)據(jù)包含了用來識別個體屬性的標記或者名稱時的測量尺度。
順序尺度(ordinal scale):數(shù)據(jù)具有名義數(shù)據(jù)的性質(zhì),并且數(shù)據(jù)的順序或者等級的意義明確時的測量尺度。
間隔尺度(interval scale):數(shù)據(jù)具有順序數(shù)據(jù)的所有性質(zhì),并且可以按照某一固定度量單位來表示數(shù)值間的間隔時的測量尺度。
比率尺度(ratio scale):數(shù)據(jù)具有間隔數(shù)據(jù)的所有性質(zhì),并且兩個數(shù)值之間的比是有意義的時的測量尺度。

數(shù)據(jù)類型:

分類型數(shù)據(jù)(categorical data):歸屬于類別的數(shù)據(jù)。
數(shù)量型數(shù)據(jù)(quantitative data):用于表示大小或者多少的數(shù)值。

截面數(shù)據(jù)(cross-sectional data):相同或者近似相同的同一時點上搜集的數(shù)據(jù)。
時間序列數(shù)據(jù)(time series data):幾個時期內(nèi)搜集的數(shù)據(jù)。

統(tǒng)計推斷

總體(population):特定研究中所有感興趣的個體組成的集合。
樣本(sample):總體的子集。
普查(census):搜集總體全部數(shù)據(jù)的調(diào)查過程。
抽樣調(diào)查(sample survey):搜集樣本數(shù)據(jù)的調(diào)查過程。
統(tǒng)計推斷(statistical inference):利用樣本數(shù)據(jù)對總體特征進行估計和假設(shè)檢驗。

邏輯分析方法

描述性分析(descriptive analysis):包含描述過去發(fā)生狀況的分析技術(shù)集合。
預(yù)測性分析(predictive analytics):包含利用過去數(shù)據(jù)建立的模型來預(yù)測未來或者評估一個變量對另一個變量的影響的分析技術(shù)。
規(guī)范性分析(prescriptive analytics):產(chǎn)生一個最佳行動過程的分析技術(shù)集合。在一組約束條件下產(chǎn)生最大或最小目標解決方案的優(yōu)化模型屬于規(guī)范性模型。

2. 圖形描述:

數(shù)據(jù)可視化(data visualization):匯總和表述一個數(shù)據(jù)集信息的圖形。

頻數(shù)分布:分類型數(shù)據(jù)

頻數(shù)分布(frequency distribution):數(shù)據(jù)的表格匯總方法,表示在幾個互不重疊的組別中每一個項目的個數(shù)。


相對頻數(shù)

條形圖(bar chart):描述已經(jīng)匯總的頻數(shù)分布信息。


bar chart

餅狀圖(pie chart):描述相對頻數(shù)和百分數(shù)頻數(shù)分布的圖形方法。
pie chart

頻數(shù)分布:數(shù)量型數(shù)據(jù)

確定頻數(shù)分布值的三個步驟:

  • 確定互不重疊組的組數(shù)
  • 確定每組的寬度
  • 確定組限


    組寬bin

    打點圖(dot plot):展示數(shù)據(jù)的細節(jié),有利于比較兩個或者更多變量的數(shù)據(jù)分布。


    dot plot

    直方圖(histogram):提供了分布形態(tài)的信息。
    histogram

累積頻數(shù)分布(cumlative frequency distribution):就是將各類別的頻數(shù)逐級累加起來進行的統(tǒng)計。圖形與上類似。

莖葉顯示(stem-and-leaf display):同時用于顯示數(shù)據(jù)的等級排序和分布形態(tài)的圖形顯示。


stem-and-leaf

莖葉顯示的優(yōu)點:

  • 莖葉顯示易于用手繪制。
  • 在一個組內(nèi),莖葉顯示提供了實際的數(shù)據(jù)值,因此莖葉顯示比直方圖提供更多的信息。

表格匯總

交叉分組表(crosstabulation):一種匯總兩個變量數(shù)據(jù)的方法。
辛普森悖論(Simpson's paradox):依據(jù)綜合和未綜合數(shù)據(jù)得到的相反結(jié)論。
當交叉分組表包括綜合數(shù)據(jù)時,應(yīng)當審查是否可能存在影響結(jié)論的隱藏變量,使得分開的或未綜合交叉分組表提供不同的,可能更好的見解和理論。

圖形匯總

散點圖(scatter plot):兩個數(shù)量變量間關(guān)系的圖形描述。
趨勢線(trendline):顯示相關(guān)性近似程度的一條直線。


scatter plot

復(fù)合條形圖(side-by-side bar chart):對已匯總的多個條形圖同時顯示的一種圖形方法。


side-by-side bar chart

結(jié)構(gòu)條形圖(stacked chart):每個長條被分解成不同顏色的矩形段,以與餅狀圖類似的方法顯示每一組的相對頻數(shù)。


stacked chart

數(shù)據(jù)可視化工具使用最廣泛:數(shù)據(jù)儀表板(data dashboard)。

參考及引用資料

本人不會將以下資料用于商業(yè)用途并對其于自己的幫助表示由衷的感謝。

  • << Statistics for Business and Econimics>>
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容