最近發(fā)現(xiàn)一個(gè)寶藏app,Tableau,都叫它數(shù)據(jù)分析的神器,編程小白做數(shù)據(jù)分析的福音,大學(xué)甚至有相關(guān)課程。這篇文章并不想吹捧它,也不想拿它和其它(比如R語(yǔ)言)做比較,各有優(yōu)缺點(diǎn)。之所以稱Tableau為寶藏app,是因?yàn)樗膸椭坛炭赐甓己苡惺斋@,我通過(guò)它的幫助文檔學(xué)習(xí)了兩個(gè)重要的議題:
了解數(shù)據(jù)的屬性來(lái)選擇合適的圖來(lái)可視化
了解數(shù)據(jù)的類型來(lái)選擇最佳的敘事方式
本文涉及內(nèi)容為議題二,原文請(qǐng)見(jiàn)講述精彩故事的最佳實(shí)踐。
在議題一里面,我們根據(jù)數(shù)據(jù)的屬性選擇了相應(yīng)合適的圖表來(lái)呈現(xiàn),而一個(gè)項(xiàng)目里,肯定不止一份數(shù)據(jù),一張表里也可以畫出不同的圖表。那么如何組織這些圖表,講一個(gè)完整的數(shù)據(jù)故事呢?
根據(jù)故事的類型(號(hào)召?提案?敘事?論證?),聽(tīng)眾(是否趕時(shí)間?)等來(lái)描繪我們的故事。事實(shí)上,我一直很迷惑tableau這個(gè)功能,好在它給出了各種示例。這里也按照表格里羅列的七種故事類型進(jìn)行解析。表格里的示意圖很不錯(cuò),但是具體示例有的不是很典型。
隨著時(shí)間而改變
其作用:使用年表來(lái)說(shuō)明一個(gè)趨勢(shì)。
開(kāi)頭討論:為什么會(huì)發(fā)生這種情況,為什么會(huì)一直發(fā)生?我們能做什么來(lái)阻止或促使這種情況發(fā)生?
我懷疑Tableau的網(wǎng)頁(yè)是機(jī)器翻譯的(狗頭)。實(shí)際上標(biāo)題是“Arsenal's Injury Crisis”,講的是足球俱樂(lè)部阿森納的足球運(yùn)動(dòng)員傷病危機(jī),探索為何在阿森納經(jīng)理阿瑟納·溫格手下,會(huì)有如此之多的球員飽受傷病困擾。。使用的數(shù)據(jù)是2002-2012年間,英國(guó)足球俱樂(lè)部的球員受傷情況調(diào)查表,變量包括:受傷時(shí)間(具體到月,賽季),受傷人員(具體到姓名,角色),俱樂(lè)部名稱(分析需要一些背景知識(shí)),受傷部位
首先對(duì)于累計(jì)受傷人次~時(shí)間作出折線圖,groupby 不同俱樂(lè)部。發(fā)現(xiàn)阿森納比別的球隊(duì)都高,標(biāo)記處拐點(diǎn)在于酋長(zhǎng)球場(chǎng)open。這里屬于一開(kāi)始就拋出結(jié)論。
為了說(shuō)明阿森納傷病率遠(yuǎn)遠(yuǎn)高出其他俱樂(lè)部,還做了一個(gè)賽季傷病數(shù)排名~時(shí)間的折線圖,同樣groupby 俱樂(lè)部名,進(jìn)一步說(shuō)明阿森納“異常高于他人”。這兩張PPT使用的都是隨時(shí)間變化的折線圖,groupby分組變量。
正式于其它俱樂(lè)部進(jìn)行比較就是用了“偏差”里的圖表類型,作出受傷頻率條形圖。
利用條形圖探索傷病部位主要在哪里,也就是“排名”類型的數(shù)據(jù)常用的呈現(xiàn)方式。由于腳部的傷病最多,這一頁(yè)提供了指向“足球場(chǎng)”這個(gè)結(jié)論的線索/證據(jù)。事實(shí)上,圖表上腳踝、腳、腳趾合并在了一起,排名第一,不知道原始數(shù)據(jù)里面他們?nèi)齻€(gè)是不是合并在一起。而腳跟為什么不合并進(jìn)去?感覺(jué)是個(gè)trick
通過(guò)對(duì)第一頁(yè)的圖進(jìn)行縮放呈現(xiàn),再次拋出論點(diǎn)。對(duì)于受傷人次~時(shí)間作出折線圖的y軸的0點(diǎn)設(shè)置在酋長(zhǎng)球場(chǎng)開(kāi)業(yè)出。不知道x軸不從0點(diǎn)開(kāi)始是數(shù)據(jù)導(dǎo)致的,還是為了美觀。
呈現(xiàn)了每個(gè)球員的傷病情況。事實(shí)上,我覺(jué)得這種密密麻麻的條形圖非常不友好。示例放在這里大概是想展示Tableau的互動(dòng)功能,右上角按照次還是頻率排序,這點(diǎn)挺不錯(cuò)的。
用熱圖展示了每年(row)每月(col)的傷病數(shù),數(shù)量映射到顏色上。把對(duì)手俱樂(lè)部的放在旁邊進(jìn)行比較。這里應(yīng)該想展示的酷炫功能除了selectInput之外,還有熱圖里數(shù)字的顏色。方格里數(shù)字的顏色會(huì)根據(jù)方格的顏色來(lái)調(diào)整成黑色或者白色,避免視覺(jué)沖突。這里非常美觀。
后面兩頁(yè)沒(méi)啥可說(shuō)的。
心得
這種隨著時(shí)間變化的數(shù)據(jù),首當(dāng)其沖是制作以時(shí)間為自變量(x)的折線圖,在變化的拐點(diǎn)處尋找差異,這里的拐點(diǎn)可以是不同組的分離點(diǎn),也可以是斜率的陡然變化的地方。
找到差異以后可以在差異出現(xiàn)的時(shí)間范圍內(nèi)再做一張圖,相當(dāng)于對(duì)第一幅的局部放大。
最后,找差異的靈感,也可能在數(shù)據(jù)表之外了。比如示例中球隊(duì)換將,換訓(xùn)練場(chǎng),不是球迷誰(shuí)知道啊……
下鉆調(diào)查
其作用:設(shè)置上下文,以便您的受眾更好地了解特定類別中發(fā)生的事件。
開(kāi)頭討論:為什么這個(gè)人、地點(diǎn)或事件與眾不同?如何比較這個(gè)人、地點(diǎn)或事件的表現(xiàn)?
繼續(xù)狗頭鄙視機(jī)器人翻譯。。。。。示例并沒(méi)有體現(xiàn)出“下鉆調(diào)查”的概念,所以不展開(kāi)了。
第一個(gè)示例里分析的事一個(gè)基于人群手機(jī)使用習(xí)慣的泄漏數(shù)據(jù),由于帶有地理坐標(biāo),所以很大篇幅是對(duì)于使用習(xí)慣進(jìn)行了地域的分析。數(shù)據(jù)展示時(shí)的層層下鉆體現(xiàn)在分析區(qū)域的縮小。配合Tableau的互動(dòng)縮放功能使用效果確實(shí)很不錯(cuò)。
第二個(gè)示例講的是對(duì)《辛普森一家》這個(gè)動(dòng)畫片的細(xì)節(jié)分析,例如《辛普森一家》與其他電視劇相比有何優(yōu)缺點(diǎn),以及觀眾最喜歡哪幾集。里面用了大量的互動(dòng)功能,除了贊嘆,好像也沒(méi)有什么能夠?qū)W到的。
縮小
其作用:描述您的受眾關(guān)注的內(nèi)容與大局的關(guān)系。
開(kāi)頭的討論:您關(guān)注的內(nèi)容與大局相比會(huì)是怎樣?一個(gè)方面對(duì)大局有什么影響?
示例:溫哥華騎自行車者
如果“下鉆調(diào)查”有“因果關(guān)系”的內(nèi)涵的話,“縮小”可能就更多只是“局部與整體”的關(guān)系呈現(xiàn)。示例講的是溫哥華騎行者的不同習(xí)慣特征,說(shuō)實(shí)話,我覺(jué)得不典型。我想了一個(gè),大學(xué)專業(yè)介紹,可能就挺適合的。
對(duì)比
其作用:表明兩個(gè)或多個(gè)主題的差異。
開(kāi)頭討論:這些項(xiàng)為什么會(huì)不同?我們?nèi)绾文苁?A 表現(xiàn)得像 B?我們應(yīng)該關(guān)注哪個(gè)方面,哪個(gè)方面做得很好?
示例:埃及的金字塔
事實(shí)上對(duì)比無(wú)處不在,阿森納的故事里,就存在不少對(duì)比。這個(gè)示例太難打開(kāi)了,略。
下面三個(gè)也是這個(gè)原因,不怎么能打開(kāi)鏈接。就此爛尾吧。果然又是網(wǎng)絡(luò)阻礙了我的進(jìn)步。
十字路口
其作用:當(dāng)一種類別超過(guò)另一種類別時(shí)突出重要的轉(zhuǎn)變。
開(kāi)頭討論:是什么原因?qū)е逻@些轉(zhuǎn)變?這些轉(zhuǎn)變是好還是壞?這些轉(zhuǎn)變?nèi)绾斡绊懳覀冇?jì)劃的其他方面?
示例:我們與他們
因素
其作用:通過(guò)將主題分成不同類型或類別來(lái)解釋主題。
開(kāi)頭討論:是否存在我們應(yīng)該更多關(guān)注的一個(gè)特定類別?這些項(xiàng)對(duì)我們關(guān)注的指標(biāo)有多大的影響?
示例:行星地球
離群值
其作用:顯示異常或事件的特別異常之處。
開(kāi)頭討論:為什么此項(xiàng)不同?
示例:SOS 兒童村