原文鏈接:不同需求下可視化圖形選擇(翻譯)
微信公眾號(hào):機(jī)器學(xué)習(xí)養(yǎng)成記? ? 搜索添加微信公眾號(hào):chenchenwings
機(jī)器學(xué)習(xí)工程師George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部分內(nèi)容翻譯。重點(diǎn)說明了散點(diǎn)圖、線圖、直方圖、條形圖和箱型圖的適用條件。
? ??前言
數(shù)據(jù)可視化是數(shù)據(jù)科學(xué)家工作的重要組成部分。在項(xiàng)目開始階段,人們需要做探索性數(shù)據(jù)分析(EDA)來獲得數(shù)據(jù)的深層信息。強(qiáng)大的可視化功能可以幫助人們更簡(jiǎn)潔清晰的了解數(shù)據(jù),尤其是大量的、多維度的數(shù)據(jù)。在項(xiàng)目快結(jié)束時(shí),用一種直觀簡(jiǎn)單的方法,讓不具備很強(qiáng)專業(yè)知識(shí)的人明白相應(yīng)結(jié)果,也是非常重要的。不同的分析與展示目的,需要選擇不同的可視化圖形,下圖展示了不同的需求,建議選擇的可視化圖形。
? ??散點(diǎn)圖
散點(diǎn)圖可以直觀展現(xiàn)原始點(diǎn)的分布和兩個(gè)變量間的關(guān)系,并可以通過標(biāo)記不同顏色,觀察不同類別數(shù)據(jù)的關(guān)系,如下圖:

通過對(duì)一些參數(shù)進(jìn)行設(shè)置,如point size,我們可以觀察三個(gè)變量間的關(guān)系,如下圖:
? ??線圖
線圖可以表示兩個(gè)具有相關(guān)性的變量,一個(gè)變量隨另一個(gè)變量變化的情況。從下圖,我們可以清楚地看到,所有專業(yè)的百分比隨著時(shí)間的推移有很大的變化。如果用散點(diǎn)圖來表示這類問題,圖像會(huì)非?;靵y,很難理解數(shù)據(jù)的變化趨勢(shì)。線圖在這種情況下是完美的,因?yàn)樗鼈兛焖俚卣宫F(xiàn)了這兩個(gè)變量的協(xié)方差(百分比和時(shí)間)。
? ??直方圖
直方圖可以有效的展現(xiàn)數(shù)據(jù)點(diǎn)的分布情況。下圖為IQ的分布直方圖,可以明顯看出,分布集中在中央?yún)^(qū)域,并且我們可以清楚的了解IQ分布的中值,同樣,還可以看出他是服從高斯分布的。直方圖可以清楚的看到每個(gè)區(qū)間內(nèi)頻數(shù)的差異。使用直方圖可以幫助我們看到“更大的圖景”,因?yàn)槿绻覀兪褂蒙Ⅻc(diǎn)圖而不是直方圖,那么在可視化中可能會(huì)有很多噪音,很難看清到底發(fā)生了什么。

? ??條形圖
當(dāng)你試圖把只有少數(shù)(通常<10個(gè))類別的分類數(shù)據(jù)可視化時(shí),條形圖最有效。如果類別太多,條形圖會(huì)很雜亂以致于理解困難。條形圖很容易根據(jù)各個(gè)條形觀察出不同類別數(shù)據(jù)的差異,不同類別的數(shù)據(jù)很容易區(qū)分并且能設(shè)定不同的顏色。條形圖分為三種:普通條形圖,分組條形圖,和堆積條形圖。分組條形圖可用來比較多重分類變量,堆積條形圖可用來反映某一變量上,不同類別的組成情況。三種條形圖的樣式可依次參見下圖:
? ??箱型圖
之前提到的直方圖可以展示數(shù)據(jù)的分布情況,但如果我們需要更詳細(xì)的分布信息時(shí),就要用到箱型圖。箱型的上下兩條邊分別表示四分之一和四分之三分位點(diǎn),箱內(nèi)的線表示中值,虛線條上的條線從盒中伸出以顯示數(shù)據(jù)的范圍。
推薦文章:
微信公眾號(hào):機(jī)器學(xué)習(xí)養(yǎng)成記? ? 搜索添加微信公眾號(hào):chenchenwings
掃描二維碼,關(guān)注我們。
如需轉(zhuǎn)載,請(qǐng)?jiān)陂_篇顯著位置注明作者和出處,并在文末放置機(jī)器學(xué)習(xí)養(yǎng)成記二維碼和添加原文鏈接。
快來關(guān)注我們吧!