說(shuō)真的,盡管自己一直都清楚數(shù)據(jù)的重要性,尤其是在大學(xué)的時(shí)候看了涂子沛的《大數(shù)據(jù)時(shí)代》。更是堅(jiān)定了對(duì)于數(shù)據(jù)重要性的看法,然而,逗比的是即便清楚它的重要性,但是在實(shí)操的工作中確依舊對(duì)數(shù)據(jù)似懂非懂。后面分析自己的問(wèn)題得出兩個(gè)結(jié)論,一個(gè)在于不知道選擇什么樣的數(shù)據(jù)進(jìn)行分析;另一個(gè)是不知道這些數(shù)據(jù)的準(zhǔn)確性,即如何剔除劣質(zhì)數(shù)據(jù)。即便是現(xiàn)在看完了《深入淺出數(shù)據(jù)分析》這本厚書(shū),也還是對(duì)數(shù)據(jù)的具體實(shí)操,以及選擇上依舊還是有困惑。就算如此,還是在這里整理一下,看這本書(shū)之后的感受,以及書(shū)中所提到的個(gè)人覺(jué)得比較重要的知識(shí)。
首先,談一下做數(shù)據(jù)分析的大致流程:
1.了解需求,確定數(shù)據(jù)分析的目標(biāo)
2.建立數(shù)據(jù)分析模型,選擇目標(biāo)數(shù)據(jù)類型
3.收集&整理數(shù)據(jù),融入分析模型
4.觀察數(shù)據(jù),建立可視化模型
5.得出數(shù)據(jù)結(jié)論,提出參考建議
上面的5個(gè)步驟,是我在看這本書(shū)中的案例所總結(jié)出來(lái)的步驟,整個(gè)步驟提煉,讓我想起了之前關(guān)于用戶研究的整個(gè)流程和步驟。從大致上來(lái)說(shuō),這個(gè)5個(gè)步驟算是萬(wàn)能的,在很多的工作流程中都可以套用,只需要稍微變形。關(guān)于為什么總結(jié)出的是這5個(gè)步驟模型,一個(gè)是書(shū)上內(nèi)容的梳理大致如此,另一個(gè)是個(gè)人工作經(jīng)驗(yàn)的總結(jié)。確定目標(biāo),這個(gè)自然不言而喻,大家都能體會(huì)到它的重要性,尤其是工作的人,對(duì)這個(gè)我相信體會(huì)是特別深刻的。對(duì)于學(xué)生而言,這個(gè)可能就沒(méi)有特別深的體會(huì)了,畢竟現(xiàn)在學(xué)校教育本身更多在意的是結(jié)果,而非目標(biāo),如若硬是要囊括進(jìn)來(lái),其實(shí)也是可以的,結(jié)果也是一種目標(biāo)的體現(xiàn)。
重點(diǎn)說(shuō)一下建立模型這一塊吧。至于為什么說(shuō)這個(gè)是重點(diǎn),主要來(lái)源于個(gè)人工作中的體會(huì)。所謂的模型,其實(shí)相當(dāng)于個(gè)人在分析一個(gè)問(wèn)題時(shí)的方向和框架,這個(gè)框架的好壞最后也導(dǎo)致了你分析出來(lái)的結(jié)論的優(yōu)劣,以及是否能具備說(shuō)服力。這也讓我想起,今年1月份在杭州參加用戶研究入門培訓(xùn)中蓉姐講到的一個(gè)真實(shí)案例,一個(gè)工作經(jīng)驗(yàn)豐富的人和一個(gè)剛?cè)肼殘?chǎng)經(jīng)驗(yàn)不夠的人去分析電商的統(tǒng)一個(gè)功能,經(jīng)驗(yàn)豐富的前輩建立的模型是“品牌-導(dǎo)購(gòu)-基礎(chǔ)”這樣一個(gè)模型,而缺乏經(jīng)驗(yàn)的童鞋所建立的模型,則更多的是一個(gè)功能性質(zhì)的模型。這兩個(gè)模型最終的結(jié)果是,品牌模型導(dǎo)出了為什么其它的競(jìng)品要去做一個(gè)這樣的功能,而功能性質(zhì)的模型并不能導(dǎo)出有效的結(jié)論,甚至于無(wú)法導(dǎo)出結(jié)論。再回過(guò)頭來(lái)看,模型這個(gè)東西的價(jià)值也就可想而知。其實(shí),建立模型就是建立一個(gè)參考系,對(duì)于參考系我相信大家都不陌生,尤其是學(xué)理科的童鞋,物理學(xué)中非常多的提到了這樣一個(gè)東西。在我們生活中也好,工作中也好,我們?cè)谠u(píng)價(jià)一個(gè)東西的優(yōu)劣的時(shí)候,其實(shí)在我們心中都有一個(gè)參考系,也就是所謂的評(píng)判標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)決定了我們?nèi)绾稳タ匆粋€(gè)東西,再高一點(diǎn)還有如何去看待一個(gè)人。這些也其實(shí)是我們的三觀的體現(xiàn),表明我們?nèi)绾稳タ创械囊磺?。我們后面所做的一切,都是為了讓結(jié)論更加靠近我們的模型,然后去評(píng)估這個(gè)東西離我們的標(biāo)準(zhǔn)是遠(yuǎn)是近,從而找到合理的解決方案。
其次,在關(guān)于3和4個(gè)步驟,更多的是一些體力活的東西。這兩個(gè)步驟的過(guò)程中,重要的就是更好的使用工具。在看《深入淺出數(shù)據(jù)分析》中,書(shū)里重點(diǎn)介紹了兩個(gè)數(shù)據(jù)分析的工具,一個(gè)是強(qiáng)大的Excel;一個(gè)叫做R,可以處理比較復(fù)雜的,離散的,多類型的數(shù)據(jù)。然而,實(shí)際的操作其實(shí)Excel也在一定程度上滿足了我們絕大部分的需求,當(dāng)然對(duì)于一個(gè)專業(yè)做數(shù)據(jù)分析的從業(yè)者而言,這些只不過(guò)是基礎(chǔ)中的基礎(chǔ),他們還會(huì)使用更加強(qiáng)大的數(shù)據(jù)分析工具,比如SPSS,Tableau等。具體,后面介紹的兩個(gè)軟件,我是不知道怎么用,大家有興趣的可以自己去百度,或者找這方面的前輩去咨詢學(xué)習(xí),或者自己買書(shū)看。另外,關(guān)于分析整理數(shù)據(jù),還有一個(gè)高效和整理大規(guī)模離散數(shù)據(jù)的方法就是學(xué)會(huì)使用數(shù)據(jù)庫(kù),通過(guò)使用MySQL語(yǔ)句去組合和調(diào)用數(shù)據(jù)庫(kù)中所存儲(chǔ)的龐大數(shù)據(jù)。最后還要講到的,就是這本書(shū)中經(jīng)常采用的數(shù)據(jù)可視化圖形主要就是散點(diǎn)圖,這個(gè)圖的作用是可以很好的看出大部分?jǐn)?shù)據(jù)所處的區(qū)域,同時(shí)在一定程度上,可以對(duì)具備線性特點(diǎn)的數(shù)據(jù),通過(guò)回歸線進(jìn)行預(yù)測(cè),所謂的回歸線其實(shí)簡(jiǎn)單來(lái)看就是通過(guò)高中所學(xué)二元一次函數(shù)(y=a+bx)去預(yù)測(cè)結(jié)果。對(duì)于那些覺(jué)得學(xué)校所學(xué)東西無(wú)用論的童鞋,在遇到這種問(wèn)題的時(shí)候,你就得感謝你之前在學(xué)校的學(xué)習(xí)了。當(dāng)然,對(duì)于學(xué)渣的我現(xiàn)在也只能感嘆當(dāng)時(shí)沒(méi)有很好的去學(xué)好數(shù)學(xué),如今才深刻體會(huì)到數(shù)學(xué)的巨大價(jià)值,可以幫助你更加高效,更加科學(xué)的理解問(wèn)題,并解決問(wèn)題。在預(yù)測(cè)的時(shí)候,其實(shí)也會(huì)存在誤差,所以我們?cè)诶没貧w線做預(yù)測(cè)的時(shí)候,也必須清楚這個(gè)誤差的存在,這樣才能避免盲目的預(yù)測(cè),以及預(yù)測(cè)結(jié)果的不準(zhǔn)到底是否為模型不對(duì)這樣的一些問(wèn)題。
講到這里,也差不多要結(jié)尾了。也就到了,談?wù)劦?個(gè)步驟了,數(shù)據(jù)分析的最終導(dǎo)向了。數(shù)據(jù)分析目標(biāo)是找到問(wèn)題,數(shù)據(jù)分析的目的是解決問(wèn)題和驗(yàn)證假設(shè),所以當(dāng)然我們最后對(duì)數(shù)據(jù)進(jìn)行了大量的處理之后,必然要有結(jié)論的導(dǎo)向以及建議的提出。這樣我們的數(shù)據(jù)分析才具備最終的價(jià)值和意義,再借用不知道哪本書(shū)看到的一句話來(lái)結(jié)尾吧,“沒(méi)有結(jié)論和建議導(dǎo)出的數(shù)據(jù)分析,不是叫做數(shù)據(jù)分析”。