數(shù)據(jù)可視化高階技巧——以哈伯曼癌癥生存數(shù)據(jù)為例

什么是數(shù)據(jù)可視化?

“一千個讀者就有一千個哈姆雷特?!边@句話也同樣適用于數(shù)據(jù)分析,不同的人對于數(shù)據(jù)也會有著不同的理解。數(shù)據(jù)可視化可以幫助我們以更簡單的方式去分析數(shù)據(jù)和找到數(shù)據(jù)背后隱藏的信息。數(shù)據(jù)可視化涵蓋的知識點非常多,我嘗試結(jié)合使用哈伯曼的癌癥生存數(shù)據(jù),來看看數(shù)據(jù)可視化是如何幫助我們在一堆雜亂無章的數(shù)據(jù)中找到隱藏的信息的,讓我們開始吧!

為什么要做數(shù)據(jù)可視化?

數(shù)據(jù)可視化是一種可以通過數(shù)據(jù)創(chuàng)建故事的方式。當數(shù)據(jù)很復(fù)雜并且需要了解微觀細節(jié)至關(guān)重要時,最好的方法是通過視覺效果來分析數(shù)據(jù)。

?

視覺效果可用于兩個目的:

1、探索性數(shù)據(jù)分析:數(shù)據(jù)分析師、統(tǒng)計學(xué)家和數(shù)據(jù)科學(xué)家使用它來更好地理解數(shù)據(jù)。正如其名,它用于探索數(shù)據(jù)中隱藏的信息和趨勢。

2、解釋性數(shù)據(jù)分析:一旦數(shù)據(jù)分析師理解了數(shù)據(jù)并找到了他們的結(jié)果,傳達他們想法的最佳方式就是通過視覺效果。數(shù)據(jù)可視化就像是創(chuàng)作一個故事,以達到吸引觀眾閱讀的目的。

?

哈伯曼生存數(shù)據(jù)的探索性分析

該數(shù)據(jù)集包含 1958 年至 1970 年在芝加哥大學(xué)比林斯醫(yī)院進行的一項研究案例,該研究主要針對接受過乳腺癌手術(shù)的患者的生存情況。

?

屬性包括

手術(shù)時患者年齡(數(shù)字)

患者的手術(shù)年份(年份 – 1900,數(shù)字)

檢測到的陽性腋窩淋巴結(jié)數(shù)量(數(shù)字)

生存狀態(tài)(類別屬性)

1 = 患者存活 5 年或更長時間

2 = 患者在 5 年內(nèi)死亡

?

讓我們首先從使用統(tǒng)計來理解數(shù)據(jù)開始:

?

我們看到有 306 行和 4 列。進一步查看屬性后,我們了解了數(shù)據(jù)的分布方式。為了進一步了解每個類的示例數(shù)量,讓我們看看不同的圖。

?

直方圖

這里可以看到兩種狀態(tài)下的患者都是在30到 80年在兩個年齡段之間重疊,而40-60歲這個年齡段的比例都是最高的,60-80歲年齡段的人生存和死亡的機會相等,80歲以上的人無法存活的可能性更高。但是,僅憑年齡無法判斷一個人是否會存活。

?

箱形圖

箱線圖可以告訴我們兩種生存狀態(tài)下,患者的淋巴結(jié)數(shù)量的最大值、最小值、中位數(shù)、四分位數(shù)分布以及異常值分布情況。

?

散點圖

我們從零散的點看,無論在哪一年,有0個淋巴結(jié)的患者都是幸存者。這是否意味著只要是0個淋巴結(jié)的患者都能確保生存?

?

小提琴圖

小提琴圖用來顯示數(shù)據(jù)分布和概率密度,中間的黑色粗條表示四分位數(shù)范圍,從其延伸的幼細黑線代表 95% 置信區(qū)間,而白點則為中位數(shù),從上述圖形中可以看出兩種生存狀態(tài)下的幸存者的淋巴結(jié)數(shù)量分布是不一樣的。

?

根據(jù)上述的案例,我們從視覺效果中學(xué)到很多東西,為了方便大家更好地學(xué)習(xí)數(shù)據(jù)可視化,我整理了一些必備的數(shù)據(jù)可視化工具來幫助您入門。

?

數(shù)據(jù)可視化工具

Tableau:可視化功能非常強大,主要應(yīng)用在商業(yè)圖表上。

Power BI:微軟自家的可視化工具,功能強悍,可用于做多維分析、數(shù)據(jù)清洗、數(shù)據(jù)可視化等工作。

Excel:這個不用多說了,職場必備的數(shù)據(jù)分析與可視化工具。

Smartbi智分析:這是國產(chǎn)數(shù)據(jù)分析工具里用的非常廣泛的工具,在線上就可以直接使用,無需安裝客戶端。圖形化界面也非常豐富,包含了地圖可視化、詞云圖、?;鶊D等個性化的圖形,可視化功能非常強大。

?

數(shù)據(jù)可視化方法論

配色方案:雖然顏色可以為圖表增添美感,但通常最好使用顏色來突出重要的細節(jié),而不僅僅是為了吸引人,太多的顏色會破壞著色的目的,而使用單一顏色或一種顏色則會閱讀者。此外,在設(shè)計視覺效果時還要考慮視障人士,直觀地使用顏色。例如:對于情感分析,我們可以使用綠色表示積極情緒,紅色表示消極情緒,黑白灰表示中性情緒。

?

圖形使用:不一樣的圖形可以表達出不同的含義,例如餅狀圖表示占比,線圖表示趨勢,柱圖可表示對比,使用圖形時要根據(jù)圖形的特性去適當運用。

?

使用注釋:在需要的地方使用標簽進行注釋,可以讓圖表里的信息更加全面,但切記不要造成圖表混亂。

?

使用交互式圖表:如果數(shù)據(jù)量比較大,變量非常多,可以使用交互式報表進行動態(tài)展示,例如BI圖表。

?

刪除不重要的信息:從圖表中刪除可能分散觀眾注意力的不必要的信息,不要在單個視覺對象中將多個視圖組合到難以理解的程度。

?

制作一個完整的故事:把數(shù)據(jù)可視化的過程當成是故事的創(chuàng)作過程,讓讀者可以沉浸集中并能領(lǐng)會到作者的意圖。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容