摘要
介紹可視化過(guò)程中常見(jiàn)的兩種堆疊圖的使用場(chǎng)景和matplotlib實(shí)現(xiàn)方式。
一.堆疊柱狀圖(Stacked Bar Chart)
1.1定義
堆疊柱狀圖可以形象地展示一個(gè)大分類包含的每個(gè)小分類的數(shù)據(jù),以及各個(gè)小分類的占比,顯示的是單個(gè)項(xiàng)目與整體之間的關(guān)系。堆疊柱狀圖分為兩種類型:
- 一般的堆疊柱狀圖:每一根柱子上的值分別代表不同的數(shù)據(jù)大小,各層的數(shù)據(jù)總和代表整根柱子的高度。非常適用于比較每個(gè)分組的數(shù)據(jù)總量。
- 百分比的堆疊柱狀圖:柱子的各個(gè)層代表的是該類別數(shù)據(jù)占該分組總體數(shù)據(jù)的百分比。
1.2使用場(chǎng)景
適用場(chǎng)景:
- 需要對(duì)比不同分組的總量大小,同時(shí)對(duì)比同一分組內(nèi)不同分類的大小。
不適用場(chǎng)景:
- 對(duì)比不同分組內(nèi)同個(gè)分類的數(shù)據(jù)大?。ò俜直榷询B柱狀圖)
- 對(duì)比各分組總數(shù)的大?。▊浞荼榷询B柱狀圖)
1.3實(shí)現(xiàn)
在matplotlib中使用bar函數(shù)進(jìn)行實(shí)現(xiàn),指定bottom參數(shù)進(jìn)行堆疊,代碼如下:
import numpy as np
import matplotlib.pyplot as plt
# 使用的數(shù)據(jù)集
year = [1950, 1960, 1970, 1980, 1990, 2000, 2010, 2018]
population_by_continent = {
'africa': [228, 284, 365, 477, 631, 814, 1044, 1275],
'americas': [340, 425, 519, 619, 727, 840, 943, 1006],
'asia': [1394, 1686, 2120, 2625, 3202, 3714, 4169, 4560],
'europe': [220, 253, 276, 295, 310, 303, 294, 293],
'oceania': [12, 15, 19, 22, 26, 31, 36, 39],
}
# 初始化figure和axes
fig, ax = plt.subplots()
sum = np.zeros((1, len(year))).reshape(-1)
# 繪圖
for i in population_by_continent:
ax.bar(year, population_by_continent.get(i), label=i, alpha=0.8, bottom=sum, width=5)
sum += population_by_continent.get(i)
# 添加圖例和標(biāo)題
ax.legend(loc='upper left')
ax.set_title('World population')
ax.set_xlabel('Year')
ax.set_ylabel('Number of people (millions)')
plt.show()
實(shí)現(xiàn)效果如下:

二.堆疊面積圖(Stacked Area Chart)
2.1定義
堆疊區(qū)域圖將多個(gè)數(shù)據(jù)集繪制為垂直堆疊的區(qū)域。堆疊面積圖和基本面積圖一樣,唯一的區(qū)別就是圖上每一個(gè)數(shù)據(jù)集的起點(diǎn)不同,起點(diǎn)是基于前一個(gè)數(shù)據(jù)集的,用于顯示每個(gè)數(shù)值所占大小隨時(shí)間或類別變化的趨勢(shì)線,展示的是部分與整體的關(guān)系。
堆疊面積圖上的最大的面積代表了所有的數(shù)據(jù)量的總和,是一個(gè)整體。各個(gè)疊起來(lái)的面積表示各個(gè)數(shù)據(jù)量的大小,這些堆疊起來(lái)的面積圖在表現(xiàn)大數(shù)據(jù)的總量分量的變化情況時(shí)格外有用。
在堆疊面積圖的基礎(chǔ)之上,將各個(gè)面積的因變量的數(shù)據(jù)使用加和后的總量進(jìn)行歸一化就形成了百分比堆疊面積圖。該圖并不能反映總量的變化,但是可以清晰的
2.2使用場(chǎng)景
適用場(chǎng)景:
- 適用于需要反應(yīng)每個(gè)數(shù)值所占百分比隨時(shí)間或類別變化的趨勢(shì)線,對(duì)于分析自變量是時(shí)變數(shù)據(jù)、有序數(shù)據(jù)時(shí)各個(gè)指標(biāo)分量占比極為有用。
- 適用于對(duì)比多變量隨時(shí)間變化的情況。
不適用場(chǎng)景:
- 不適用于帶有負(fù)值的數(shù)據(jù)集。
2.3實(shí)現(xiàn)
使用stackplots實(shí)現(xiàn)堆疊面積圖,stackplots函數(shù)參數(shù)如下:
作用:繪制堆疊面積圖
stackplot(x, *args, labels=(), colors=None, baseline='zero', data=None, **kwargs)
參數(shù)1:x:數(shù)組,指定橫軸。
參數(shù)2:*args,y:數(shù)組,指定要繪制的數(shù)據(jù)。
參數(shù)3:labels:字符串列表:指定每個(gè)繪制數(shù)據(jù)的標(biāo)簽。
參數(shù)4:colors:顏色列表:指定堆疊區(qū)域的著色,不必與y完相同,顏色會(huì)循環(huán)使用。
參數(shù)5:baseline:限定字符串:指定計(jì)算基線的方法,可選:
-
zero:恒定零基線,即一個(gè)簡(jiǎn)單的堆積圖。 -
sym:圍繞零對(duì)稱。 -
wiggle:最小化平方斜率的總和。 -
weighted_wiggle: 帶權(quán)值,權(quán)重占每一層的大小。
參數(shù)6:data:未知
參數(shù)7:**kwargs:接收的關(guān)鍵字參數(shù)傳遞給fill_between方法。
import numpy as np
import matplotlib.pyplot as plt
year = [1950, 1960, 1970, 1980, 1990, 2000, 2010, 2018]
population_by_continent = {
'africa': [228, 284, 365, 477, 631, 814, 1044, 1275],
'americas': [340, 425, 519, 619, 727, 840, 943, 1006],
'asia': [1394, 1686, 2120, 2625, 3202, 3714, 4169, 4560],
'europe': [220, 253, 276, 295, 310, 303, 294, 293],
'oceania': [12, 15, 19, 22, 26, 31, 36, 39],
}
fig, ax = plt.subplots()
ax.stackplot(year, population_by_continent.values(),
labels=population_by_continent.keys(), alpha=0.8)
ax.legend(loc='upper left')
ax.set_title('World population')
ax.set_xlabel('Year')
ax.set_ylabel('Number of people (millions)')
plt.show()
實(shí)現(xiàn)效果如下:
