記錄了一些基本概念的定義。
1. 數(shù)據(jù)
基本定義
數(shù)據(jù)(data):描述和解釋所搜集,分析,匯總的事實和數(shù)字。
數(shù)據(jù)集(data set):用于特定研究而搜集的所有數(shù)據(jù)。
個體(element):搜集數(shù)據(jù)的實體。
變量(variable):個體中感興趣的特征。
觀測值(observation):對某一特定個體得到的測量值集合。
觀測值個數(shù) = 測量值個數(shù)
數(shù)據(jù)項總數(shù) = 個體個數(shù) * 變量總數(shù)
四種測量尺度(measure scale):
名義尺度(nominal scale):變量的數(shù)據(jù)包含了用來識別個體屬性的標記或者名稱時的測量尺度。
順序尺度(ordinal scale):數(shù)據(jù)具有名義數(shù)據(jù)的性質(zhì),并且數(shù)據(jù)的順序或者等級的意義明確時的測量尺度。
間隔尺度(interval scale):數(shù)據(jù)具有順序數(shù)據(jù)的所有性質(zhì),并且可以按照某一固定度量單位來表示數(shù)值間的間隔時的測量尺度。
比率尺度(ratio scale):數(shù)據(jù)具有間隔數(shù)據(jù)的所有性質(zhì),并且兩個數(shù)值之間的比是有意義的時的測量尺度。
數(shù)據(jù)類型:
分類型數(shù)據(jù)(categorical data):歸屬于類別的數(shù)據(jù)。
數(shù)量型數(shù)據(jù)(quantitative data):用于表示大小或者多少的數(shù)值。
截面數(shù)據(jù)(cross-sectional data):相同或者近似相同的同一時點上搜集的數(shù)據(jù)。
時間序列數(shù)據(jù)(time series data):幾個時期內(nèi)搜集的數(shù)據(jù)。
統(tǒng)計推斷
總體(population):特定研究中所有感興趣的個體組成的集合。
樣本(sample):總體的子集。
普查(census):搜集總體全部數(shù)據(jù)的調(diào)查過程。
抽樣調(diào)查(sample survey):搜集樣本數(shù)據(jù)的調(diào)查過程。
統(tǒng)計推斷(statistical inference):利用樣本數(shù)據(jù)對總體特征進行估計和假設(shè)檢驗。
邏輯分析方法
描述性分析(descriptive analysis):包含描述過去發(fā)生狀況的分析技術(shù)集合。
預(yù)測性分析(predictive analytics):包含利用過去數(shù)據(jù)建立的模型來預(yù)測未來或者評估一個變量對另一個變量的影響的分析技術(shù)。
規(guī)范性分析(prescriptive analytics):產(chǎn)生一個最佳行動過程的分析技術(shù)集合。在一組約束條件下產(chǎn)生最大或最小目標解決方案的優(yōu)化模型屬于規(guī)范性模型。
2. 圖形描述:
數(shù)據(jù)可視化(data visualization):匯總和表述一個數(shù)據(jù)集信息的圖形。
頻數(shù)分布:分類型數(shù)據(jù)
頻數(shù)分布(frequency distribution):數(shù)據(jù)的表格匯總方法,表示在幾個互不重疊的組別中每一個項目的個數(shù)。

條形圖(bar chart):描述已經(jīng)匯總的頻數(shù)分布信息。

餅狀圖(pie chart):描述相對頻數(shù)和百分數(shù)頻數(shù)分布的圖形方法。

頻數(shù)分布:數(shù)量型數(shù)據(jù)
確定頻數(shù)分布值的三個步驟:
- 確定互不重疊組的組數(shù)
- 確定每組的寬度
-
確定組限
組寬bin
打點圖(dot plot):展示數(shù)據(jù)的細節(jié),有利于比較兩個或者更多變量的數(shù)據(jù)分布。
dot plot
直方圖(histogram):提供了分布形態(tài)的信息。
histogram
累積頻數(shù)分布(cumlative frequency distribution):就是將各類別的頻數(shù)逐級累加起來進行的統(tǒng)計。圖形與上類似。
莖葉顯示(stem-and-leaf display):同時用于顯示數(shù)據(jù)的等級排序和分布形態(tài)的圖形顯示。

莖葉顯示的優(yōu)點:
- 莖葉顯示易于用手繪制。
- 在一個組內(nèi),莖葉顯示提供了實際的數(shù)據(jù)值,因此莖葉顯示比直方圖提供更多的信息。
表格匯總
交叉分組表(crosstabulation):一種匯總兩個變量數(shù)據(jù)的方法。
辛普森悖論(Simpson's paradox):依據(jù)綜合和未綜合數(shù)據(jù)得到的相反結(jié)論。
當交叉分組表包括綜合數(shù)據(jù)時,應(yīng)當審查是否可能存在影響結(jié)論的隱藏變量,使得分開的或未綜合交叉分組表提供不同的,可能更好的見解和理論。
圖形匯總
散點圖(scatter plot):兩個數(shù)量變量間關(guān)系的圖形描述。
趨勢線(trendline):顯示相關(guān)性近似程度的一條直線。

復(fù)合條形圖(side-by-side bar chart):對已匯總的多個條形圖同時顯示的一種圖形方法。

結(jié)構(gòu)條形圖(stacked chart):每個長條被分解成不同顏色的矩形段,以與餅狀圖類似的方法顯示每一組的相對頻數(shù)。

數(shù)據(jù)可視化工具使用最廣泛:數(shù)據(jù)儀表板(data dashboard)。
參考及引用資料
本人不會將以下資料用于商業(yè)用途并對其于自己的幫助表示由衷的感謝。
- << Statistics for Business and Econimics>>


