第2章 描述統(tǒng)計(jì)學(xué)Ⅰ:表格法和圖形法
分類型數(shù)據(jù)是用標(biāo)簽或名稱來識(shí)別項(xiàng)目的類型。數(shù)量型數(shù)據(jù)是表示多少或大小的數(shù)據(jù)。
術(shù)語數(shù)據(jù)可視化(data visualization)常常用于描述匯總和表述一個(gè)數(shù)據(jù)集信息的圖形顯示的效用。
1、匯總分類變量的數(shù)據(jù)
1.1頻數(shù)分布
頻數(shù)分布(frequency distribution)是一種數(shù)據(jù)的表格匯總,表示在幾個(gè)互不重疊組別中的每一組項(xiàng)目的個(gè)數(shù)(頻數(shù))。
條形圖(bar chart)是一種圖形方法,用來描繪已匯總的分類型數(shù)據(jù)的頻數(shù)分布、相對(duì)頻數(shù)分布或百分?jǐn)?shù)頻數(shù)分布。
2.2 數(shù)量型數(shù)據(jù)匯總
2.2.1 頻數(shù)分布
三個(gè)步驟:1、確定互不重疊組的組數(shù)。
2、確定組寬。
3、確定組限。選擇組限必須使每一個(gè)數(shù)據(jù)值屬于且只屬于一組。
直方圖(histogram)是一種常用的數(shù)量型數(shù)據(jù)的圖形描述方式。
直方圖中鄰近的長方形是互相連接的,屬于條形圖。
直方圖的一個(gè)最重要應(yīng)用是提供了分布形態(tài)的信息。左偏表示圖形的尾部向左延伸一些??荚嚦煽兙褪堑湫?,大多數(shù)成績常常在70%之上。

2.3 用表格方式匯總兩個(gè)變量的數(shù)據(jù)
2.3.1 交叉分組表
辛普森悖論:從兩個(gè)或多個(gè)單獨(dú)的交叉分組表得到的結(jié)論與一個(gè)綜合的交叉分組表數(shù)據(jù)得到的結(jié)論可能截然相反。舉例子兩位法官,分析綜合數(shù)據(jù)時(shí),應(yīng)該審查是否存在可能影響結(jié)論的隱藏變量,使得分開的交叉分組表提供不同的、可能更好的見解和結(jié)論。
2.4 用圖形顯示方式匯總兩個(gè)變量的數(shù)據(jù)
2.4.1 散點(diǎn)圖和趨勢(shì)線
散點(diǎn)圖(scatter diagram),趨勢(shì)線(trendline)是顯示相關(guān)性近似程度的一條直線。它們會(huì)一起出現(xiàn)。
2.4.2 復(fù)合條形圖和結(jié)構(gòu)條形圖
復(fù)合條形圖是對(duì)已匯總的多個(gè)條形圖同時(shí)顯示的一種圖形顯示方式。結(jié)構(gòu)條形圖:沒一個(gè)長條被分解成不同顏色的矩形段,與餅形圖類似的方式顯示每一組的相對(duì)頻數(shù)。
2.5 數(shù)據(jù)可視化:創(chuàng)建有效圖形顯示的最佳實(shí)踐
遵循如下的一般性準(zhǔn)則,可以增強(qiáng)你的顯示有效地表述數(shù)據(jù)中重要信息的可能性:
給予圖形顯示一個(gè)清晰、簡明的標(biāo)題。
使圖形顯示保持簡潔,當(dāng)能用二維表示時(shí)不要用三維表示。
每個(gè)坐標(biāo)軸有清楚的標(biāo)記,并給出測(cè)量的單位。
如果使用顏色來區(qū)分類別,要確保顏色是不同的。
如果使用多種顏色或線型,用圖例來標(biāo)明時(shí),要將圖例靠近所表示的數(shù)據(jù)。
2.5.3 數(shù)據(jù)儀表板