最近因?yàn)楣ぷ餍枰瑢?duì)數(shù)據(jù)可視化做了一些初步的思考。筆記如下。
1.互聯(lián)網(wǎng)公司數(shù)據(jù)部門的數(shù)據(jù)可視化工作的本質(zhì)和很多互聯(lián)網(wǎng)產(chǎn)品類似,最終是為了通過(guò)標(biāo)準(zhǔn)化的產(chǎn)品產(chǎn)生用戶價(jià)值。一圖勝千言,想讓數(shù)據(jù)產(chǎn)生影響力,特別是在一些閱讀大規(guī)模數(shù)據(jù)能力有限的管理和業(yè)務(wù)背景人員那里產(chǎn)生影響力,恰到好處的數(shù)據(jù)可視化可以產(chǎn)生事半功倍的效果。
2.技術(shù)角度而言,數(shù)據(jù)可視化大量采用對(duì)比的手段。例如,扇形統(tǒng)計(jì)圖通常用于規(guī)模占比的比較,條形統(tǒng)計(jì)圖用于絕對(duì)規(guī)模的比較,折線統(tǒng)計(jì)圖用于指標(biāo)趨勢(shì)的比較,文氏圖是對(duì)集合的交集和全集進(jìn)行比較,氣泡圖和熱力圖等則是在二維坐標(biāo)系或者地圖坐標(biāo)系里面對(duì)規(guī)?;蛎芏日归_比較,諸如此類。這些圖以比較的手段,除了傳遞樣本包含的數(shù)據(jù)本身的信息,也傳遞制圖者所希望暗示的高級(jí)內(nèi)容。
3.當(dāng)數(shù)據(jù)規(guī)模增大時(shí),樣本本身傳遞的信息很難完整地通過(guò)可視化展示出來(lái),這時(shí)候制圖者的意圖反而成為數(shù)據(jù)可視化的主要產(chǎn)出。這就是通常所謂的『數(shù)據(jù)會(huì)說(shuō)話』和『數(shù)據(jù)會(huì)說(shuō)謊』。例如,在一張散點(diǎn)圖里面,可能讀圖者什么都看不出來(lái),只要增加一條趨勢(shì)線,往往就可以勝過(guò)描述散點(diǎn)圖的千言萬(wàn)語(yǔ)。但這條趨勢(shì)線應(yīng)該是線性函數(shù)擬合的,還是指數(shù)函數(shù)擬合的,取決于樣本本身的特征。用恰當(dāng)函數(shù)擬合樣本特征的趨勢(shì)線,是『數(shù)據(jù)說(shuō)話』的例子;用不恰當(dāng)?shù)暮瘮?shù)擬合樣本特征的趨勢(shì)線,則是『數(shù)據(jù)說(shuō)謊』的例子。
4.一張圖能傳遞的信息是有限的。因此在做數(shù)據(jù)可視化的時(shí)候,需要理念先行,技術(shù)只是傳遞理念的工具。為了炫技而進(jìn)行的數(shù)據(jù)可視化,很容易陷入空洞無(wú)物的境地,看起來(lái)包含很多東西,其實(shí)什么有效信息都沒有傳遞出來(lái)。
5.源數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)和數(shù)據(jù)可視化組件設(shè)計(jì)是規(guī)?;瘮?shù)據(jù)可視化的兩個(gè)主要環(huán)節(jié)。源數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)直接依賴于數(shù)據(jù)可視化所希望傳遞的理念,同時(shí)也受源數(shù)據(jù)規(guī)模和復(fù)雜程度的影響,還需要兼顧組件的形式;組件設(shè)計(jì)則是成本最小化的造輪子過(guò)程。
6.隨著數(shù)據(jù)內(nèi)容越來(lái)越復(fù)雜,數(shù)據(jù)可視化也逐步出現(xiàn)了更加豐富的形式載體,例如,信息圖、基于HTML5框架的動(dòng)態(tài)多媒體數(shù)據(jù)可視化等。但數(shù)據(jù)可視化的基本邏輯并沒有變,只是針對(duì)更多元化的受眾,采取了更復(fù)雜的技術(shù)手段而已。