三:「對比型數(shù)據(jù)」、「分布型數(shù)據(jù)」可視化和數(shù)據(jù)特征和測度(20191125-1201)

0x00 可視化圖表選擇

兩類不同的可視化目的及其可選擇的圖表形式。

「對比型數(shù)據(jù)」:對比兩組或兩組以上數(shù)據(jù)的差異。

「分布型數(shù)據(jù)」:研究數(shù)據(jù)分布的集中趨勢、離散程度、偏態(tài)和峰度等。

0x01 對比型數(shù)據(jù)可視化

對比多組數(shù)據(jù)之間的差異,而這些差異通常是通過不同的標(biāo)記和視覺通道體現(xiàn)出來。

高度差異/寬度差異:柱狀圖、條形圖。

面積差異:面積圖、氣泡圖。

字號差異:單詞云圖。

形狀差異:星狀圖。

1.1.柱狀圖

柱狀圖除了可以用于離散時間數(shù)據(jù)的可視化,更多的是用于比較不同分類數(shù)據(jù)的可視化,且柱狀圖的數(shù)據(jù)條數(shù),最好不要超過12條。

細(xì)化柱狀圖的圖表選擇:

單一柱狀圖:適合單一類別的數(shù)據(jù)比對,也適合表示離散型時序數(shù)據(jù)的趨勢。

重疊型柱狀圖:適合兩個類別的數(shù)據(jù)對比,半透明柱形條,代表某項指標(biāo)的「目標(biāo)值」,內(nèi)部偏窄且不透明的柱形條表示某項指標(biāo)的「實(shí)際完成情況」。通常會搭配折線圖使用,折線圖則表示目標(biāo)完成率。

并列柱狀圖:適合兩個或三個數(shù)據(jù)類別的對比,若數(shù)據(jù)類別超出3個,不建議使用并列柱狀圖。

堆疊柱狀圖:適合既要對比總體的數(shù)據(jù),又要對比總體各構(gòu)成項的數(shù)據(jù),但是總體各構(gòu)成項一般不要大于5個,若大于5個,可按占總體的比例進(jìn)行歸類,展示TOP5的分類,剩下則歸為「其他」。

1.2.條形圖

條形圖,可以視為是柱狀圖的一種變體。

相比柱狀圖而言,條形圖可以展示更多的數(shù)據(jù)條數(shù),一般不要超過30條;

若分類項的文本過長時,柱狀圖的文本需要進(jìn)行旋轉(zhuǎn)才能不重疊,不利于閱讀,而條形圖就沒有這個缺點(diǎn)。

1.3.面積圖

面積圖,是折線圖的一種延伸,其實(shí)就是折線圖和折線圖投影到X軸的直線所圍成的面積。

按照對比方式的不同,面積圖可以分為:「重疊對比型面積圖」和「堆砌對比型面積圖」。

區(qū)別:

重疊對比型:所有系列的面積基線都是X軸,系列之間有重疊和覆蓋的關(guān)系。

堆砌對比型:只有底層系列的面積基線和X軸重合,其他系列都是堆砌在它們下面一組的數(shù)據(jù)上面。

面積圖,一般也是用于趨勢分析中。

1.4.氣泡圖

氣泡圖,和散點(diǎn)圖的區(qū)別是,氣泡圖一般是用于三維數(shù)據(jù)的可視化,而散點(diǎn)圖是用于二維數(shù)據(jù)的可視化。

散點(diǎn)圖中,圓點(diǎn)的面積是相同的,主要是通過圓點(diǎn)在坐標(biāo)軸中的坐標(biāo)點(diǎn)(X,Y)確定的位置,來映射數(shù)據(jù)。

氣泡圖,是通過氣泡的面積大小來對比數(shù)據(jù)的圖形方式,它除了可以反映散點(diǎn)圖中坐標(biāo)點(diǎn)X、Y的相關(guān)關(guān)系,還有一個維度的數(shù)據(jù)可以映射到氣泡的面積大小上,因此「氣泡圖」可以在二維平面展示三維信息的數(shù)據(jù)。

1.5.單詞云圖

單詞云圖,主要是用于網(wǎng)絡(luò)文本中詞頻數(shù)據(jù)的可視化。

通過單詞云圖,用戶可以快速找出網(wǎng)站搜索的高頻詞匯、了解文章的主旨、熱點(diǎn)事件的關(guān)鍵信息。但單次云圖只適合表示一組文本數(shù)據(jù)的對比,不適合多個類別的文本數(shù)據(jù)之間的比較。

1.6.雷達(dá)圖/星狀圖

當(dāng)需要對比一個主體、或多個主體本身,在不同維度上的特征時,雷達(dá)圖和星狀圖是不錯的選擇。

雷達(dá)圖是一體多維的數(shù)據(jù),即可視化的對象是一個主體,只是這個主體具有多個維度上的數(shù)據(jù)特征。對比的是,同一個主體,在不同維度上的數(shù)值,可以看出主體在不同維度上的偏向

星狀圖是多體多維的數(shù)據(jù),即可視化的對象是多個主體,且多個主體維度相同,且單個主體具有多個維度上的數(shù)據(jù)特征。對比的是,多個主體,在同一維度上的數(shù)值,可以看出不同主體之間的差異和側(cè)重點(diǎn)。

一般情況下,會給予不同維度上的數(shù)值一定的權(quán)重,從而算出各個主體的綜合得分,我們的芝麻信用分就是這么來的。

0x02 分布型數(shù)據(jù)可視化

2.1 直方圖

常用的直方圖,主要有「頻數(shù)直方圖」和「頻率直方圖」,它們都是用于展示離散型分組數(shù)據(jù)的分布情況。

繪制直方圖:

首先,要對數(shù)據(jù)進(jìn)行分組,然后統(tǒng)計每個分組內(nèi)數(shù)據(jù)元的頻數(shù)和頻率。

其次,在平面直角坐標(biāo)系中,橫軸標(biāo)出每個組數(shù)據(jù)的下限和上限,即上圖中的a和b。

最后,縱軸表示頻數(shù)或頻率,每個矩形的高代表對應(yīng)的頻數(shù)或頻率,即上圖中的h。

若縱軸表示的是「頻數(shù)」,則是「頻數(shù)直方圖」;若縱軸展示的是「頻率」,則為「頻率直方圖」。

「頻數(shù)分布直方圖」中,頻數(shù)乘以組距得出每個分組的數(shù)量,可以看出頻數(shù)分布直方圖是用面積來表示頻數(shù)的,和柱狀圖(條形圖)是用長方形的高度(寬度)表示數(shù)量是有本質(zhì)性區(qū)別。

2.2 莖葉圖

莖葉圖適合數(shù)據(jù)為整數(shù)的數(shù)據(jù)的可視化。

莖葉圖的原理是,將一組數(shù)據(jù)按照數(shù)據(jù)位數(shù)進(jìn)行比較,將數(shù)據(jù)中的高位數(shù)作為樹莖,低位數(shù)作為樹葉。

2.3.箱線圖

在描述性統(tǒng)計中,有涉及到分位數(shù)相關(guān)的知識,其中比較常用的是四分位數(shù),即一組數(shù)據(jù)中的下四分位數(shù)Q1、中位數(shù)、上四分位數(shù)Q3,關(guān)于分位數(shù)的概念不清楚的同學(xué)可以自行查閱相關(guān)資料。一組數(shù)據(jù)中的四分位數(shù),加上這組數(shù)據(jù)的最大值、最小值,這5個特征值,就可以繪制一個箱線圖。

箱線圖釋義:

箱子的中間一條線,是數(shù)據(jù)的中位數(shù),代表了樣本數(shù)據(jù)的平均水平。

箱子的上下限,分別是數(shù)據(jù)的上四分位數(shù)Q3和下四分位數(shù)Q1,這代表箱體部分包含了數(shù)據(jù)集中50%的數(shù)據(jù),因此,箱子的寬度(四分位距=Q3-Q1)在一定程度上反映了數(shù)據(jù)的離散程度。

在箱子的上方和下方,又各有一條線,有時候代表著最大最小值,有時候代表的是上下內(nèi)限。如果有點(diǎn)位于內(nèi)限之外,理解成“異常值”就好。

箱線圖常用的場景有如下幾類:

(1)對比多組數(shù)據(jù)的分布情況。

(2)檢測數(shù)據(jù)中的異常值或離群點(diǎn)。

2.4.概率密度圖

要描述連續(xù)型隨機(jī)變量其分布規(guī)律,概率密度圖是一種很直觀表現(xiàn)形式。

在數(shù)學(xué)中,連續(xù)型隨機(jī)變量概率密度函數(shù)是一個描述這個隨機(jī)變量的輸出值,在某個確定的取值點(diǎn)附近的可能性的函數(shù),簡單理解就是,連續(xù)型隨機(jī)變量取值某個確定數(shù)值的概率,即為縱切直線與概率密度函數(shù)交點(diǎn)的縱坐標(biāo)的值。而隨機(jī)變量的取值落在某個區(qū)域之內(nèi)的概率則為概率密度函數(shù)在這個區(qū)域上的積分,也就是區(qū)間的上下限與概率密度曲線圍成的面積。

通過圖形化的方式,與正態(tài)分布對比,我們可以看到隨機(jī)變量分布的對稱性情況,以及隨機(jī)變量取值是集中還是分散,這些可以通過偏態(tài)系數(shù)和峰度系數(shù)來度量。

2.5 散點(diǎn)圖/氣泡圖

參照上述氣泡圖描述部分。

需要注意區(qū)別:

散點(diǎn)圖,一般是用于研究兩個變量之間的相關(guān)關(guān)系,可以是一個類別數(shù)據(jù),也可以是多類別數(shù)據(jù),但是都是二維的數(shù)組(x,y)。

氣泡圖,除了具體散點(diǎn)圖的功能以外,還可以用氣泡的面積來映射第三個維度的數(shù)據(jù),對應(yīng)的數(shù)據(jù)形式是(x,y,z),同樣可以用于多組或多類別數(shù)據(jù)的比較。

2.6 熱力圖

熱力圖,是通過密度函數(shù)進(jìn)行可視化,用于表示地圖中點(diǎn)的密度的熱圖?,F(xiàn)階段,熱力圖在地圖、網(wǎng)頁分析、業(yè)務(wù)數(shù)據(jù)分析等其他領(lǐng)域也有較為廣泛的應(yīng)用。

熱力地圖:比如我們?nèi)粘J褂玫膶?dǎo)航APP,通過熱力圖來表示各個路況的擁擠程度,顏色越深表示人員越多,對應(yīng)路段也就越擁擠,有了熱力圖可以很直觀的看到區(qū)域內(nèi)的人群流量,方便駕車人士進(jìn)行路線規(guī)劃。

網(wǎng)頁熱力分析:常見的網(wǎng)頁熱力圖,有按鼠標(biāo)點(diǎn)擊位置的熱力圖、按鼠標(biāo)移動軌跡的熱力圖、按內(nèi)容點(diǎn)擊的熱力圖。還有一種是獲取用戶眼球在屏幕上的移動軌跡熱力圖,不過這種因?yàn)樯婕暗接脩綦[私,獲取數(shù)據(jù)的難度很大。通過網(wǎng)頁熱力分析,可以直觀清楚地看到頁面上每一個區(qū)域的訪客興趣焦點(diǎn),從而為營銷推廣、用戶體驗(yàn)優(yōu)化提供依據(jù)。

業(yè)務(wù)數(shù)據(jù)分析:帶有地理信息屬性的數(shù)據(jù)、或者離散時間屬性的數(shù)據(jù),也可以使用熱力圖來進(jìn)行數(shù)據(jù)展示。

2.7 地圖

當(dāng)數(shù)據(jù)帶有地理型信息屬性時,首選的可視化圖表為地圖。按照展示的數(shù)據(jù)空間劃分,地圖可以分為二維平面地圖和三維立體地圖。

比如我們常用的導(dǎo)航軟件、天氣預(yù)報、降水量、臺風(fēng)移動路線等都和地理信息相掛鉤,這些數(shù)據(jù)一般也是在地圖上進(jìn)行呈現(xiàn),給人以直觀的視覺體驗(yàn)。

0x03 小結(jié)

無論是要對比數(shù)據(jù),還是研究數(shù)據(jù)的分布情況,都需要根據(jù)數(shù)據(jù)的類型、數(shù)據(jù)的特征來確定可視化的最佳方式。

0x04?數(shù)據(jù)的集中趨勢

4.1.眾數(shù)

眾數(shù)(mode),是一組數(shù)據(jù)中出現(xiàn)頻次最多的數(shù)值,眾數(shù)可以不存在或多于一個。

4.2.中位數(shù)

中位數(shù)(median),是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。

若n為奇數(shù),取正中間的數(shù)作為中位數(shù),

若n為偶數(shù),則取中間的兩個數(shù)值的算數(shù)平均數(shù)作為中位數(shù)。

4.3.分位數(shù)

分位數(shù)(quantile),亦稱分位點(diǎn),是指將一個隨機(jī)變量的概率分布范圍分為幾個等份的數(shù)值點(diǎn)。

簡單理解:把給定的亂序數(shù)值由小到大排列并分成N等份,處于N-1個分割點(diǎn)位置的數(shù)值就是N分位數(shù)。常見的分位數(shù)有,二分位數(shù)(即中位數(shù))、四分位數(shù)、百分位數(shù)等。

(1)二分位數(shù)

二分位數(shù)即中位數(shù)。

對于有限數(shù)集,按照順序排列之后,如果數(shù)據(jù)的個數(shù)是奇數(shù),則位于正中間的那個數(shù)據(jù)就是這組數(shù)據(jù)的中位數(shù);如果數(shù)據(jù)的個數(shù)是偶數(shù),則位于最中間的那2個數(shù)據(jù)的算術(shù)平均值就是這組數(shù)據(jù)的中位數(shù)。

(2)四分位數(shù)

四分位數(shù)是分位數(shù)的一種,即把所有數(shù)值由小到大排列并分成四等份,處于三個分割點(diǎn)位置的數(shù)值就是四分位數(shù)。

第一四分位數(shù)(Q1),又稱“較小四分位數(shù)”或“上四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后,位置位于第?的數(shù)字;

第二四分位數(shù)(Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后,位于第?的數(shù)字;

第三四分位數(shù)(Q3),等于該樣本中所有數(shù)值由小到大排列后,位置位于第?的數(shù)字。

四分位距(interquartile range):是指第三四分位數(shù)(Q3)與第一四分位數(shù)(Q1)的差距,IQR = Q3 ? Q1。

(3)百分位數(shù)

百分位數(shù),如果將一組數(shù)據(jù)從小到大排序,并計算相應(yīng)的累計百分位,則某一百分位所對應(yīng)數(shù)據(jù)的值就稱為這一百分位的百分位數(shù)。

4.4.平均數(shù)

平均數(shù)(mean),也稱均值,是指一組數(shù)據(jù)中的所有數(shù)據(jù)之和,除以這組數(shù)據(jù)的個數(shù),是衡量數(shù)據(jù)集中趨勢的一種方法。

(1)算數(shù)平均數(shù)

算術(shù)平均數(shù)(arithmetic mean),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個數(shù)。

優(yōu)缺點(diǎn):算術(shù)平均數(shù)的優(yōu)點(diǎn),就是它較中位數(shù)、眾數(shù)更少受到隨機(jī)因素影響, 缺點(diǎn)是它更容易受到極端值影響。

(2)加權(quán)平均數(shù)

加權(quán)平均數(shù)(weighted average),是不同比重數(shù)據(jù)的平均數(shù),加權(quán)平均數(shù)就是把原始數(shù)據(jù)按照合理的比例來計算,若 n個數(shù)中,x出現(xiàn)f次,x出現(xiàn)f次,…,x出現(xiàn)f次,那么叫做x、x、…、x的加權(quán)平均數(shù)。f1、f2、…、fk是X1、X2、…、Xk的權(quán)。

(3)幾何平均數(shù)

幾何平均數(shù)(geometric mean),是指n個觀察值連乘之后開n次方根。

0x05 數(shù)據(jù)的離散程度

5.1.數(shù)值型數(shù)據(jù)

(1)方差

作用:是用來衡量一組數(shù)據(jù)的波動程度,即這組數(shù)據(jù)偏離平均數(shù)的幅度。在樣本容量相同的情況下,方差越大,說明數(shù)據(jù)的波動越大,越不穩(wěn)定。

(2)標(biāo)準(zhǔn)差

作用:標(biāo)準(zhǔn)差,是方差的算術(shù)平方根,反映一個數(shù)據(jù)集組內(nèi)個體間的離散程度。

因?yàn)闃?biāo)準(zhǔn)差的單位與樣本數(shù)據(jù)的單位是一致的,比方差更加直觀。

(3)極差

計算公式:R=max-min。

作用:極差,也稱全距(range),反映的是變量分布的最大變異范圍離散幅度,在總體中任何兩個單位的標(biāo)準(zhǔn)值之差都不能超過極差。極差越大,離散程度越大,反之,離散程度越小。

局限:極差只指明了測定值的最大離散范圍,不能細(xì)致地反映測量值彼此相符合的程度。

(4)平均差

計算公式:

1.Xi為變量 2.X拔為算術(shù)平均數(shù) 3.n為變量值的個數(shù)。

作用:平均差,反映各變量與算術(shù)平均數(shù)之間的平均差異。

平均差越大,表明各變量與算術(shù)平均數(shù)的差異程度越大,該算術(shù)平均數(shù)的代表性就越??;

平均差越小,表明各變量與算術(shù)平均數(shù)的差異程度越小,該算術(shù)平均數(shù)的代表性就越大。

5.2.順序數(shù)據(jù)

(1)四分位差(quartile deviation)

計算公式:QD = Q3 ? Q1,是指第三四分位數(shù)(Q3)與第一四分位數(shù)(Q1)的差距,即上文中的四分位距。

作用:

四分位差反映了位于中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明中間的數(shù)據(jù)越集中;其數(shù)值越大,說明中間的數(shù)據(jù)越分散。

此外,四分位差不受極值的影響。由于中位數(shù)處于數(shù)據(jù)的中間位置,因此,四分位差的大小在一定程度上也說明了中位數(shù)對一組數(shù)據(jù)的代表程度,四分位差越小,中位數(shù)越能代表這組數(shù)據(jù)。

5.3.分類數(shù)據(jù)

(1)異眾比率

定義:異眾比率(variation ratio),是總體中非眾數(shù)的次數(shù)與總體的總頻數(shù)之比。

作用:異眾比率主要適合衡量分類數(shù)據(jù)的離散程度,反應(yīng)眾數(shù)對一組數(shù)據(jù)的代表程度。

異眾比率越大,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大,眾數(shù)的代表性就越差;

異眾比率越小,說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小,眾數(shù)的代表性越好;

5.4.相對離散程度

(1)離散系數(shù)

定義:離散系數(shù)(coefficient of variation),是指一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的均值之比,其作用主要是用于比較不同組別數(shù)據(jù)的離散程度,是測度數(shù)據(jù)離散程度的相對指標(biāo)。

作用:離散系數(shù),反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。

離散系數(shù)越小,說明平均指標(biāo)(一般指平均數(shù))的代表性越好;

離散系數(shù)越大,說明平均指標(biāo)(一般指平均數(shù))的代表性越差;

0x06 數(shù)據(jù)分布的形狀

6.1.偏態(tài)系數(shù)

定義:偏態(tài)系數(shù)(coefficient of skewness),是度量數(shù)據(jù)分布對稱性的指標(biāo),記作SK。

計算公式:

N代表樣本容量大小,σ代表標(biāo)準(zhǔn)差,X拔代表樣本均值??

零值:偏態(tài)系數(shù)的取值為0時,表示數(shù)據(jù)為完全的對稱分布。

正值:偏態(tài)系數(shù)的取值為正數(shù)時,表示數(shù)據(jù)為正偏態(tài)或右偏態(tài)。

負(fù)值:偏態(tài)系數(shù)的取值為負(fù)數(shù)時,表示數(shù)據(jù)為負(fù)偏態(tài),或左偏態(tài)。


作用:

偏態(tài)系數(shù),是對數(shù)據(jù)分布偏斜方向和程度的刻畫。

偏態(tài)系數(shù)的絕對數(shù)值越小,表示數(shù)據(jù)偏倚的程度越小;

偏態(tài)系數(shù)的絕對數(shù)值越大,表示數(shù)據(jù)偏倚的程度越大。

6.2.峰態(tài)系數(shù)

定義:峰度系數(shù)(Coefficient of kurtosis),是用來反映頻數(shù)分布曲線頂端尖峭或扁平程度的指標(biāo)。

公式:

fi表示各觀測值的頻數(shù),σ為標(biāo)準(zhǔn)差,x拔為均值。


作用:峰度系數(shù),用來度量數(shù)據(jù)在中心聚集的程度。

在正態(tài)分布情況下,峰度系數(shù)值是3。

大于3的峰度系數(shù)說明觀察量更集中,有比正態(tài)分布更短的尾部;

小于3的峰度系數(shù)說明觀測量不那么集中,有比正態(tài)分布更長的尾部,類似于矩形的均勻分布。

以上可以看出,無論是衡量偏態(tài)還是峰度,都是相對于正態(tài)分布而言的。

0x07 《數(shù)據(jù)可視化指南》補(bǔ)充

7.1多個變量間比較

熱點(diǎn)圖可發(fā)現(xiàn)所有對象的所有變量。

切爾諾夫臉譜圖(Chernoff Faces),不每個對象都被各種指標(biāo)切散,而是希望當(dāng)做一個的整體來觀察。(方法并不是業(yè)界通用的標(biāo)準(zhǔn)方法),而且可能會讓讀者一頭霧水,但其非常有趣。

星圖和切爾諾夫臉譜圖能方便地找出各個對象與同類之間的差異,但它們卻很難描述群組或各變量之間的關(guān)系。

平行坐標(biāo)圖能描述群組或各變量之間的關(guān)系。

7.2 多維量法

當(dāng)我們使用切爾諾夫臉譜圖或平行坐標(biāo)圖時,主要的目的是去減少。我們希望在數(shù)據(jù)集或者全體中找出不同的分組。這里的挑戰(zhàn)在于,我們并不總是清楚從哪里開始觀察這些臉譜或者連接線,所以如果能根據(jù)某些標(biāo)準(zhǔn)將對象劃分為不同的群集,事情就會容易得多。這就是多維量法(MultiDimensional Scaling,MDS)的目的之一。將所有事物都考慮進(jìn)來,然后在圖表上將相互更類似的對象靠近放置。

7.3 異常值

一方面,我們要探究數(shù)據(jù)對象為什么屬于某個群組,另一方面,也應(yīng)該探究它們?yōu)槭裁磿粚儆谀硞€群組。也就是說,總會有一些數(shù)據(jù)點(diǎn)從同類中凸顯出來,正如你所猜到的,它們被稱為“異常值”(outlier)。這些數(shù)據(jù)點(diǎn)和全體中的其他數(shù)據(jù)顯得格格不入。有時候它們正是你的故事中最值得人注意的亮點(diǎn),有時候它們可能只是無聊的筆誤。

深入理解數(shù)據(jù)的上下文背景,做好功課,如果對某些問題不太確定,不妨詢問該方面的專家。找到異常值后,我們完全可以用之前所掌握的圖表繪制技巧對它們進(jìn)行強(qiáng)調(diào):添加不同的顏色、使用箭頭或者更粗的邊框等。

0x08?有關(guān)關(guān)系的可視化

8.1 關(guān)聯(lián)性

關(guān)聯(lián)性可以幫助我們根據(jù)某一已知指標(biāo)來預(yù)測另一指標(biāo)。要想探究這種關(guān)系,讓我們看看散點(diǎn)圖和多重散點(diǎn)圖。

散點(diǎn)圖不僅可以應(yīng)用于時間,還可以表現(xiàn)兩個變量之間的關(guān)系。

圖表只是整個故事的一部分而已,對故事結(jié)果的解讀仍然取決于人,而這對于關(guān)系來說非常重要。也許你會嘗試表現(xiàn)出數(shù)據(jù)間的因果關(guān)系,但大多數(shù)情況下它們都并不準(zhǔn)確。

散點(diǎn)圖矩陣可以兩兩比較所有變量。

氣泡圖最簡單的氣泡圖就是一系列尺寸按比例顯示的氣泡,不過現(xiàn)在我們可以考慮它的變體,也就是帶有“氣泡”維度的散點(diǎn)圖。

需要注意的是氣泡的面積大小,因?yàn)楹芏嗳藭谶@個地方出錯。在第1章中我們就曾提到過,氣的大小是根據(jù)面積來的,而不是半徑、直徑或者圓的周長。

8.2 分布

直方圖(histogram)

柱形的高度表示頻率,而柱形寬度沒有具體意義。直方圖的水平軸和垂直軸都是連續(xù)的,而一般柱形圖的水平軸上各個數(shù)值則是相互分離的。在使用柱形圖時,一般會通過水平軸表現(xiàn)各類別,而且各個柱形之間通常會留有間隙。(有許多人往往會誤認(rèn)為水平軸只能是時間,水平軸可以是時間,但絕不僅限于此。在考慮的受眾群體時這一點(diǎn)非常重要。如果圖表主要呈現(xiàn)給普通讀者,那么就需要解釋圖表的閱讀方法,以及需要注意的地方。)

應(yīng)該根據(jù)所要可視化的數(shù)據(jù)特點(diǎn)來決定分段的數(shù)量。如果大部分?jǐn)?shù)據(jù)都聚集在某個取值域內(nèi),那么就應(yīng)該采用較多的分段,以便觀察其中的細(xì)節(jié)變化,而不是只生成一個很高的柱形。但如果沒有那么多數(shù)據(jù),或者數(shù)字的分布比較平均,那么較粗的柱形就會更加合適。

密度圖(density plot)

直方圖的數(shù)值軸是延續(xù)性的,但整個分布依然被分成了數(shù)個柱形。每一個柱形代表的都是一些條目的集合。也可以用密度圖來對分布的細(xì)節(jié)變化進(jìn)行可視化。(觀察每個柱形內(nèi)部的變化)用曲線代替柱形圖的效果,曲線以下的總面積等于1,垂直軸代表的是可能性,或者說樣本群體中某個值所占的比例。

8.3 對照和比較

通常來說,將多個分布同時進(jìn)行比較會帶來更大幫助,而不是只考慮平均數(shù)、中位數(shù)和眾數(shù)。畢竟這些摘要性質(zhì)的統(tǒng)計只是對大局的一種“描述符”,它們講述的只是故事的片段。

系列組圖

將大量小圖表歸于一起的技巧通常被稱作“系列組圖”(small multiples)。這種圖表方便讀者多個群組和分類之間及其內(nèi)部比較。

8.4 小結(jié)

在數(shù)據(jù)中探索關(guān)系有時候會頗具挑戰(zhàn)性,而且還需要更多的批判性思維,不能盲目地拿著數(shù)字就開始畫圖。不過,這樣也會呈現(xiàn)更多的信息,帶來更大的回報。它表現(xiàn)了你的數(shù)據(jù),或者說數(shù)據(jù)代表的事物之間是如何關(guān)聯(lián)及互動的,這些才是最有意思的部分,正是它們造就了最好的故事。


0x09 案例練習(xí)

場景1:比較三家電商公司在消費(fèi)者心中的印象評分。

因?yàn)閿?shù)據(jù)中,有3個電商(系列),4項評分(維度),故雷達(dá)圖較為合適。

場景2:了解這50家店鋪的收入、成本和店鋪綜合評分的分布。


參考閱讀:

1.《如何優(yōu)雅地選擇數(shù)據(jù)圖表:對比型和分布型數(shù)據(jù)圖表》(「對比型數(shù)據(jù)」和「分布型數(shù)據(jù)」)

2.《統(tǒng)計學(xué)第1篇 描述性統(tǒng)計

3.《鮮活的數(shù)據(jù)》第7章P185,第6章P162。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 前言 第一周是用的腦圖寫的,等有時間把第一周的也轉(zhuǎn)化為筆記。話不多說,直接上第二周的知識點(diǎn)概括圖: 1.集中趨勢 ...
    超神的喬巴丶閱讀 1,918評論 0 1
  • 數(shù)據(jù)的集中趨勢 眾數(shù) 是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有可能沒有也有可能有多個。 中位數(shù) 中位數(shù),又稱中點(diǎn)數(shù),中值...
    當(dāng)_下閱讀 5,761評論 5 8
  • “有時候,一個人只要好好活著,就足以拯救某個人。”熒屏里的張魯一望著王凱憂郁地說。 高浩林看到這里,拿出了手機(jī),默...
    豪少爺閱讀 374評論 0 0
  • 致闞小超: 我們相識七年 相愛三年 遇到你的時候,我從來不知道你會成為我生命中最重要的一個人,陪...
    霍小刀閱讀 318評論 0 0
  • 說不清的夢, 我寫在東風(fēng)。 想不通的話, 我埋在深秋。 做不到的事, 我丟在隆冬。 卑微的匍匐, 逃離的現(xiàn)實(shí) ――...
    花安閱讀 144評論 0 1

友情鏈接更多精彩內(nèi)容