人人都是分析師

“人人都是數(shù)據(jù)分析師”,這句話并不是空穴來風,而是隨著大數(shù)據(jù)的深入落地,每個產(chǎn)業(yè)都會以數(shù)據(jù)驅(qū)動的模式經(jīng)營。因此,這要求產(chǎn)業(yè)中的每個人都必須能夠分析數(shù)據(jù)。同時,伴隨著技術(shù)的發(fā)展,也會有很多簡單的工具供大家使用。

當打開招聘網(wǎng)站中數(shù)據(jù)分析師的崗位介紹時,能夠發(fā)現(xiàn)數(shù)據(jù)分析師的要求離不開做模型、能夠使用分析軟件、統(tǒng)計分析等幾個關(guān)鍵詞,一眼看去會給人一種這是一個技術(shù)要求很高,對數(shù)學要求很高的工作,數(shù)據(jù)分析很難上手一樣。其實,事實并不是是這樣,盡管數(shù)據(jù)分析有一些高級的方法和技術(shù),然而每個人依然能夠輕松上手,駕輕就熟地開展數(shù)據(jù)分析工作。數(shù)據(jù)分析看起來是件難事,但是只要掌握了數(shù)據(jù)分析的心法、手法還有利器后,就很容易進入駕馭手邊數(shù)據(jù)的門檻,并且還有機會步步深入。

數(shù)據(jù)分析的心法、手法和利器

數(shù)據(jù)分析的心法,其實就是指做分析的思想,思想并不像數(shù)學證明一樣晦澀難懂,反而更多的是會依靠嘗試。心法之下是手法,手法就是數(shù)據(jù)分析方法論,有了思想的指引,再加上方法的入手,相信每個人能夠?qū)?shù)據(jù)分析學得一招半式。利器就是指分析的工具,有道是“工欲做其事,必先利其器”,掌握了數(shù)據(jù)分析的工具,能夠更快的得出分析結(jié)果,同時也能夠更容易分析維度更多,記錄更長的數(shù)據(jù)。

心法——做分析的思想

心法是數(shù)據(jù)分析的基礎(chǔ),也是對數(shù)據(jù)分析最精煉和最有高度的總結(jié)。做分析的思想,可以一分為三,其一為商業(yè)認識,其二為業(yè)務(wù)理解,其三為分析思路。


數(shù)據(jù)分析的心法

從商業(yè)認識就可以看出,這里說的數(shù)據(jù)分析是在商業(yè)領(lǐng)域的,相對廣泛的分析場景和分析對象而言,只能算是狹義的數(shù)據(jù)分析。數(shù)據(jù)分析不僅僅是用于商業(yè)領(lǐng)域,還可以用于其他多個領(lǐng)域,例如生物中的基因檢測,電子信息中的信號檢測等等。當然在這里就以商業(yè)為例,來解釋分析的思想。商業(yè)認識是在在商業(yè)領(lǐng)域中的基本思想,其在管理學和經(jīng)濟學中都有涉及,例如戰(zhàn)略領(lǐng)域中的SWOT分析,PEST分析,在營銷領(lǐng)域的4P、4C、4R等等。這些商業(yè)思想早已成熟,并且在定性的領(lǐng)域得到了廣泛應(yīng)用和有效性驗證。對數(shù)據(jù)分析而言,利用商業(yè)領(lǐng)域的基本思想的目的和意義就是在于構(gòu)建分析的邏輯,在的指導(dǎo)下,明確分析什么數(shù)據(jù),從哪些角度分析。并且相關(guān)理論也在指導(dǎo)應(yīng)該選取哪些方法來分析。商業(yè)思想的價值讓數(shù)據(jù)分析能夠有一個清晰的路徑,在思想上保證分析流程的效率。

分析思想的第二項是業(yè)務(wù)理解,業(yè)務(wù)理解用一句話來解釋就是“無業(yè)務(wù)不分析”,只有在正確理解了業(yè)務(wù)的基礎(chǔ)上,才能得到有效和可靠的分析,業(yè)務(wù)理解包括了理解目標客戶,理解業(yè)務(wù)流程等等。在數(shù)據(jù)分析中,只有數(shù)字的堆砌是沒有價值的,一定要放到業(yè)務(wù)環(huán)境中去理解。例如一個數(shù)字20,這里一點意義都沒有。如果加上一個單位:20噸,其實就是蘊含了重量的信息,然而這個重量的信息依然要放在具體領(lǐng)域去理解。如果在航空領(lǐng)域,可以是20噸的飛機載重重量,這種場景下就有了理解數(shù)據(jù)的基礎(chǔ)。更進一步的,如果是一架戰(zhàn)斗機的載彈量20噸,在這種情況,更能夠通過這個20噸的載彈量帶來載彈量是大還是小,在領(lǐng)域內(nèi)排名如何,有無改進空間等等信息。一個數(shù)字從加上單位,再進入特定領(lǐng)域,同時更進一步的有特定的對象,這樣一步一步就讓數(shù)據(jù)能夠帶來越來越多的信息,數(shù)據(jù)價值的體現(xiàn)也越來越重要。

分析思想的第三項是分析思路,在各個領(lǐng)域中總有各種各樣的分析思路在數(shù)據(jù)分析中體現(xiàn),例如層次分析,加權(quán)比較,關(guān)聯(lián)分析,決策樹等等,有些思想簡單,有些的思想非常復(fù)雜,然而對所有的數(shù)據(jù)分析思路而言,可以總結(jié)為四個字兩個詞:對比和拆分。對比就是比大小,這是數(shù)學最基本的功能:哪個數(shù)大哪個數(shù)小,哪個數(shù)比哪個多幾個,哪個比哪個多百分之多少等等,這些都是比較。而拆分,就是把數(shù)據(jù)分開了比,是對對比的深化,如像手術(shù)刀一樣其剖析分析對象結(jié)構(gòu),往往更能發(fā)現(xiàn)問題所在。

對比和拆分的思路,既可淺顯,簡單的幾個動作就能得出數(shù)據(jù)價值,也可高深,在對比和拆分思想的基礎(chǔ)上能夠延伸出無數(shù)的方法,用于處理各種復(fù)雜問題。就對比而言,只要選擇不同的對比對象,就可以產(chǎn)生各種信息。就拆分而言,只要選取不同的維度,就可以發(fā)揮不同的作用。


心法之對比和拆分的思想

在對比上,可以選取的對象實在太多。首先是和自己比,可以在時間的維度上展開和自己的對比,例如對比過去和現(xiàn)在的情況。我們時常能在新聞中看到這樣的報道,當前的經(jīng)濟相比改革開放初期增長了多少,GDP要在21世紀比1980年翻兩翻等等。其實這些都是通過對比不同時代的中國經(jīng)濟數(shù)據(jù),以展現(xiàn)出改革開放取得的成果。其次可以把自己和別人展開對比,這種方式在對標競爭對手的過程中常常看見。比如兩家公司的在年報發(fā)布以后,就可以對比在銷售收入和利潤上的差異,各個經(jīng)濟指標一經(jīng)比較,頓時高下立見。放大對比,是將自己和更大的宏觀對象進行比較,比如對比一家公司和整個行業(yè)的情況,通過比較諸如某公司銷售利潤和行業(yè)平均利潤的方式,頓時就能夠知道這家公司在行業(yè)內(nèi)部經(jīng)營如何,是靠前還是靠后,還有沒有上升空間等等信息。縮小對比,是將自身和更微觀的對象進行比較,與一家公司對比整個行業(yè)相反,可以將這家公司的經(jīng)營情況和其下屬子公司甚至部門一一進行比較,這樣就知道了哪些子公司的產(chǎn)生巨大貢獻,哪些子公司還在拖后腿。在有了如下信息的基礎(chǔ)上,就可以決策到底應(yīng)該對優(yōu)勢子公司加大投入,還是對落后子公司進行裁撤。對比的思想不會僅僅只有自身、他人、放大和縮小四種情況,只要是平常能夠想到的,都可以通過對比相關(guān)數(shù)據(jù)后,得出有價值的信息。

拆分是對比的擴展和延伸,也是數(shù)據(jù)分析邏輯展開的重要部分。通過對數(shù)據(jù)的拆分,能夠?qū)⒎治龅膶ο笠徊讲郊毣?,在抽絲剝繭中獲取有價值的發(fā)現(xiàn)。例如可以把一個數(shù)據(jù)拆分成不同的對象,例如全國的GDP就可以拆分成為不同的省市,再通過不同省市間的對比,一下子就知道哪些省市領(lǐng)先哪些省市落后。又如在新聞中常說的房地產(chǎn)對GDP的貢獻是多少,其實也是將全國的GDP按照產(chǎn)業(yè)進行拆分,然后得出的房地產(chǎn)對GDP的貢獻。同時拆分可以分時間進行拆分,把一年分成12個月,通過月度的拆分就可能看到一年期間每個月的數(shù)據(jù)變化。例如在天氣預(yù)報上常??匆?月降雨量和7月降雨量兩個指標,這兩個指標就揭示了一年中降雨最少的時候和最多的時候有多少,這個按月對全年降雨量的拆分方式就會比單單一個全年降雨量數(shù)據(jù)帶來更多信息。此外,還可以按照相關(guān)的指標進行拆分,通常這些指標都有一定的邏輯關(guān)系,能夠通過對指標的展開揭示出更多的信息。例如對利潤可以通過公式“利潤=收入-成本”的方式進行拆分,這樣一下子就知道收入和成本的利潤的影響程度。又例如對路程按照“距離=時間*速度”進行拆分,就能夠知道移動的距離更多來源于速度快還是時間長。拆分的思路,也同對比的一樣,不僅僅局限于對象、時間和指標,只要在邏輯上能夠展開,都能夠進行拆分。

對比和拆分的思路可以同時應(yīng)用,這樣可以帶來更多的價值。例如在對比兩家公司的利潤時,就可以將兩家的利潤拆分成收入和成本,就能夠在利潤的基礎(chǔ)上,對比出兩家公司的收入和成本哪個更具備優(yōu)勢。又例如在對比一家公司兩年的收入情況時,就可以將兩年的收入分別拆分成12月的情況,這樣分月對比,可以帶來收入是否具有周期性,以及收入的變化是否具有穩(wěn)定性等等諸多信息。

對比和拆分是數(shù)據(jù)分析的基本思路,基于這兩個思路,可以衍生出更多的方法,往往對數(shù)據(jù)的金礦挖掘,就是從對比和拆分中開啟的。

手法——數(shù)據(jù)分析方法論

數(shù)據(jù)分析的手法是指數(shù)據(jù)分析方法論,即實施數(shù)據(jù)分析的通用方法。在數(shù)據(jù)分析中,有一套嚴格的分析流程,任何一個分析項目或者任何一項分析工作就都是圍繞這個流程展開的。


數(shù)據(jù)分析總體流程

數(shù)據(jù)分析的總體流程的一條主線依次是:確定分析目標、業(yè)務(wù)理解,數(shù)據(jù)提取,數(shù)據(jù)整理,數(shù)據(jù)分析和結(jié)果展現(xiàn),另外在數(shù)據(jù)提取的步驟以前,還會經(jīng)歷數(shù)據(jù)采集和數(shù)據(jù)儲存的過程。

從整個流程可以看出,數(shù)據(jù)分析的起點是在分析目標上,而并非數(shù)據(jù)本身,這也說明了數(shù)據(jù)分析并不是以數(shù)據(jù)為導(dǎo)向的,反而是以業(yè)務(wù)為導(dǎo)向的。數(shù)據(jù)分析的流程是以確定分析目標開始的,其目的就于明確分析的目的、對象和邊界。只要有數(shù)據(jù)確實可以帶來許多的信息,依次也更需要把問題聚焦,明確通過數(shù)據(jù)分析,需要去解決什么問題。對一家公司而言,分析其成本對利潤的影響還是銷售對收入的影響都是不同的命題。因而只有確定了要分析的問題,才會去安排后續(xù)的工作。

業(yè)務(wù)理解是將確定了的分析問題落地的過程,這里其實就是要將業(yè)務(wù)問題轉(zhuǎn)換成數(shù)學問題,把業(yè)務(wù)的各個環(huán)節(jié)抽離出來,通過定量的方式來表現(xiàn)和構(gòu)架。這句話看起來很抽象,也很復(fù)雜,其實簡單的來說,就是明確通過分析哪些數(shù)據(jù)來得到結(jié)果,以及明確所分析數(shù)據(jù)之間的邏輯關(guān)系。在業(yè)務(wù)理解中會確定分析思路,從中明確將那些定性的工具按照定量的方式來使用,明確要對比那些數(shù)據(jù),明確要從哪些維度上面將數(shù)據(jù)進行拆分。因為,業(yè)務(wù)理解是數(shù)據(jù)分析的關(guān)鍵步驟之一,也是數(shù)據(jù)分析工作的中樞,數(shù)據(jù)分析的是否具有嚴密的邏輯,是否能夠深入都是來自于對業(yè)務(wù)理解程度上。例如分析一家公司的盈利情況,就需要在業(yè)務(wù)理論的環(huán)節(jié)中,考慮應(yīng)該按年進行拆分還是按月進行拆分,是重點看收入還是重點看成本,是否要分產(chǎn)品形態(tài)和業(yè)務(wù)板塊來進行拆分。在業(yè)務(wù)理解的環(huán)節(jié)中,只有數(shù)據(jù)分析的能力是不夠的,還必須要能夠理解業(yè)務(wù),要明白應(yīng)該從哪些方向去拆分數(shù)據(jù),從哪些方向去構(gòu)建分析的過程,還有從哪些維度去解讀數(shù)據(jù)。

數(shù)據(jù)提取就是指把在業(yè)務(wù)理解中明確要分析的數(shù)據(jù)提取出來,這里的數(shù)據(jù)有可能是企業(yè)內(nèi)部數(shù)據(jù)庫已經(jīng)儲存好的二手數(shù)據(jù),在后面經(jīng)過加工后,就可以直接使用。另外也有可能是當前企業(yè)還不具備這些數(shù)據(jù),需要從企業(yè)內(nèi)外部去獲取。因此這里就是涉及到了數(shù)據(jù)采集,自己去獲取一手數(shù)據(jù),在獲取一手數(shù)據(jù)以后,需要將按照相關(guān)標準的形式儲存下來,因此也涉及到了數(shù)據(jù)儲存。

數(shù)據(jù)整理是對數(shù)據(jù)加工的工程,即將原始數(shù)據(jù)提取出來后,形成可以供分析標準形式,為后續(xù)的數(shù)據(jù)分析打造基礎(chǔ)。數(shù)據(jù)分析是從數(shù)據(jù)中獲取信息的過程,在數(shù)據(jù)分析的過程就是實施對比和拆分的過程。通過對比和拆分,從數(shù)據(jù)中提取出信息,并進行解讀。數(shù)據(jù)分析既可以是簡單的計算,也可以進一步地使用統(tǒng)計學、數(shù)據(jù)挖掘、機器學習甚至深度學習的相關(guān)算法和工具,這些都取決于對分析的精度、方法的要求以及所分析數(shù)據(jù)的復(fù)雜程度。

結(jié)果展現(xiàn)是把數(shù)據(jù)分析的結(jié)果通過圖表化的方式展現(xiàn)。通過圖表,使人看到的不是冰冷的數(shù)字,而是生動的圖表,這樣更容易理解數(shù)據(jù)呈現(xiàn)的信息。

在數(shù)據(jù)分析的流程中,分析目標和業(yè)務(wù)理解是由業(yè)務(wù)驅(qū)動的,考察的是對問題背景的認識和解決問題的邏輯。而其他的部分則是更多地由數(shù)據(jù)驅(qū)動,考察著數(shù)據(jù)分析的方法和技術(shù)。在著重考察數(shù)據(jù)分析方法和技術(shù)的步驟中,數(shù)據(jù)采集、數(shù)據(jù)整理、數(shù)據(jù)分析和結(jié)果展現(xiàn)是比較關(guān)鍵的幾個步驟。


數(shù)據(jù)分析流程關(guān)鍵步驟

數(shù)據(jù)采集是獲取數(shù)據(jù)的過程,也是整個數(shù)據(jù)分析過程中輸入的源頭,如果沒有數(shù)據(jù)就一切無從談起。數(shù)據(jù)的來源可以有很多,最簡單的就是手工記錄,不論是遠古時期的結(jié)繩記事還是選舉時畫“正”字,都是屬于手工記錄。有時我們會在大街上偶遇手持調(diào)查表的調(diào)查人員,還有我們在辦理銀行卡時填的表單也都是屬于手工記錄,只不過當完成了手工記錄的步驟后,還需要通過電腦或者其他終端的形式,錄入到系統(tǒng)中去。手工記錄是一種低效而且容易出錯的方式,對于產(chǎn)生大量數(shù)據(jù)的環(huán)節(jié)來說,這并不是最好的方法。因此,也會在產(chǎn)生數(shù)據(jù)的環(huán)節(jié)中,采取由系統(tǒng)自動記錄的方式采集數(shù)據(jù):每個人每個月的通話清單就是由電信運營商的系統(tǒng)自動記錄的,還有每個人上網(wǎng)的每個點擊和瀏覽的動作也會被記錄在相關(guān)網(wǎng)站后臺和自身電腦的網(wǎng)絡(luò)日志中。自動獲取數(shù)據(jù)的還可以通過網(wǎng)絡(luò)爬蟲的模式,即編寫一個代碼,讓機器模擬成人一樣,去訪問各個網(wǎng)站,同時記錄網(wǎng)站上面的信息。爬蟲具備適用范圍廣以及效率高的特點,所以深受數(shù)據(jù)采集人員的喜愛。在數(shù)據(jù)采集環(huán)節(jié)中,除了自己去獲取數(shù)據(jù)外,還可以通過對外購買和交換數(shù)據(jù)的方式,如貴陽大數(shù)據(jù)交易中心就在提供購買和交換數(shù)據(jù)的服務(wù)。

數(shù)據(jù)整理是數(shù)據(jù)分析前的重要準備環(huán)節(jié),其目的主要是把數(shù)據(jù)按照相應(yīng)的字段整理成可供分析的標準格式。由于數(shù)據(jù)采集和記錄過程中有可能會存在部分質(zhì)量問題,因此需要對數(shù)據(jù)按照質(zhì)量進行規(guī)范化的操作,這里包括了處理缺失值,即對數(shù)據(jù)缺失的部分是考慮剔除還是用其他值來代替;處理錯誤值,對明顯錯誤的數(shù)據(jù)如何處理,比如個人存款存在負數(shù)的情況,是看調(diào)整為零還是剔除處理;處理異常值,即一些過大或者過大的數(shù)值應(yīng)該如何處理,例如針對一個人行走的速度是70km/h的數(shù)據(jù),需要考慮是否調(diào)整為7km/h。除了處理數(shù)值以外,在數(shù)據(jù)整理中還需要考慮變量的問題,一方面由于原始數(shù)據(jù)中維度太多,不一定全部進入數(shù)據(jù)分析環(huán)節(jié),因此需要考慮選取哪些變量進行分析。另外一方面,也有所需要的數(shù)據(jù)要通過對原始數(shù)據(jù)中變量進行計算產(chǎn)生的情況,因此會涉及到對衍生變量的計算。當原始數(shù)據(jù)中只有時間和距離的變量,同時需要速度的數(shù)據(jù)時,就要通過“速度=距離/時間”的公式計算速度這個衍生變量。

在對數(shù)據(jù)完成了整理工作后,就進入了數(shù)據(jù)分析環(huán)節(jié)。數(shù)據(jù)分析就是通過數(shù)學模型對數(shù)據(jù)進行拆分和對比的過程,這也是整個數(shù)據(jù)分析總體流程中的核心環(huán)節(jié)。數(shù)據(jù)分析的過程中,分析模型可以很簡單,簡單的拆分和對比就能夠得出結(jié)論。同時,模型也可以特別復(fù)雜,需要花費大量的計算資源。通常來說,分析模型有三種類型,首先是描述統(tǒng)計,例如計算平均值、中位數(shù)、方差、分位點等等。稍微復(fù)雜一點,會涉及到統(tǒng)計學更高級的部分,即探索性分析,例如假設(shè)檢驗、方差分析等等。更進一步地,就會用到數(shù)據(jù)挖掘的相關(guān)技術(shù)和方法了,包括決策樹分類、回歸分析、聚類分析,關(guān)聯(lián)分析等等工具,當然還有更復(fù)雜的使用深度學習技術(shù)。對于模型的復(fù)雜程度的選擇,取決于問題本身的復(fù)雜程度和數(shù)據(jù)本身的復(fù)雜程度。

結(jié)果展現(xiàn)是對數(shù)據(jù)分析結(jié)果按照相關(guān)的圖表進行展示。數(shù)據(jù)分析的結(jié)果往往也是數(shù)據(jù),因此用圖表展示數(shù)據(jù),有更好的可讀性和可理解性。圖表也是一個拆分對比的過程,在拆分對比中可以分為絕對比較,相對比較和綜合比較三種模式。絕對比較是直接比較數(shù)字的數(shù)值大小,通常使用條形圖,直方圖和折線圖可以清晰地反映出各部分大小和趨勢。相對比較是比較數(shù)據(jù)的相對大小情況,例如圓餅圖就可能展示出在一個總體中,各個分類所占的比例。綜合比較,會從多個角度同時來對數(shù)據(jù)進行比較,比如蛛網(wǎng)圖就可以在多個指標上面同時對比多個維度進行絕對或相對比較,又如氣泡圖可以從3-4個維度上對比多組數(shù)據(jù),即按照X軸,Y軸,氣泡大小,顏色深度的形式體現(xiàn)出數(shù)據(jù)差異。結(jié)果展現(xiàn)是對數(shù)據(jù)藝術(shù)化的表現(xiàn),并不拘泥于一種圖表,往往會有各種生動的數(shù)據(jù)可視化形式,當前常見的信息圖就是其中的有效又美觀的展現(xiàn)方式。

利器——分析工具

對數(shù)據(jù)分析而言,有了思想和方法就基本具備了通過分析數(shù)據(jù)并從中解決問題的能力。在這個基礎(chǔ)上,掌握好數(shù)據(jù)分析的相關(guān)分析工具,就能夠更高效地分析數(shù)量更大的數(shù)據(jù),從而快速提升數(shù)據(jù)分析的效率和體量。數(shù)據(jù)分析工具是專門用戶分析數(shù)據(jù)的軟件,也被稱為數(shù)據(jù)分析的利器,這是因為機器的計算能力遠遠大于手工計算,借助機器,可以實現(xiàn)對多維度、體量數(shù)據(jù)的快速計算。在有了正確的思想指導(dǎo)和方法準備的基礎(chǔ)上,諸多復(fù)雜問題都可以在分析軟件的協(xié)助下,迎刃而解。


數(shù)據(jù)分析工具體系

當前市面上有眾多的數(shù)據(jù)分析軟件,從任何電腦都能用的單價計算到需要借助聯(lián)機處理的分布式處理平臺都有覆蓋。簡單地說,數(shù)據(jù)分析最普遍和最基礎(chǔ)的軟件就是電子表格,其代表性的就微軟OFFICE套件中EXCEL。EXCEL在每臺電腦上都能夠使用,可以勝任平常人使用的數(shù)據(jù)分析任務(wù),再加上有諸多的擴展功能,也會有各種各樣的使用場景,因此這被稱為數(shù)據(jù)分析的第一神器。市場上除了微軟外,還有諸多的廠商出品類似EXCEL的電子表格工具,而且許多都是開源和免費的,因此對電子表格軟件而言,每個人的獲取成本的都可以為零。

EXCEL是通常用于數(shù)據(jù)分析的辦公軟件,并不是專門的數(shù)據(jù)分析軟件。對數(shù)據(jù)分析而言,專業(yè)的軟件有很多,首先是IBM的SPSS軟件,SPSS包括了SPSS統(tǒng)計和SPSS MODELER,兩種軟件都就具有平緩的學習曲線,因此也是屬于數(shù)據(jù)分析的入門級軟件。

再向上是諸如SAS,MATALAB,PYTHON,R等專業(yè)軟件,能夠熟練使用其中一種軟件是當前對數(shù)據(jù)分析師的專業(yè)要求,因此在絕大多數(shù)數(shù)據(jù)分析師的招聘啟事中,都有這些的軟件要求。

對單機分析而言,除了使用數(shù)據(jù)分析專業(yè)軟件,還可以使用例如C語言,JAVA等編程語言。這些語言很多情況是開發(fā)人員用于把相關(guān)數(shù)據(jù)分析的算法和過程,嵌入到軟件和系統(tǒng)中去。當然使用這類語言進行數(shù)據(jù)分析對編程的要求更高,因此又被稱為數(shù)據(jù)分析的掃地僧級工具。

除了單機分析外,還可以進行聯(lián)機分析,即多臺機器同時承擔一項分析任務(wù),當前最熱門的分布式計算就是數(shù)據(jù)聯(lián)機分析的范疇。對聯(lián)機分析而言,就需要搭建相關(guān)的高速平臺來實現(xiàn)。例如HADOOP就是現(xiàn)在常用的分布式計算架構(gòu),SPARK是高效的分布式數(shù)據(jù)分析引擎。

各種數(shù)據(jù)分析軟件對數(shù)據(jù)的處理能力都不一樣,其功能也各有千秋。

對數(shù)據(jù)分析的第一神器EXCEL來說,其主要用于處理1萬-10萬條內(nèi)的數(shù)據(jù)。03版本的EXCEL能夠處理6萬多條數(shù)據(jù),在07版本以后,EXCEL能夠處理上百萬條數(shù)據(jù),但是由于計算性能的原因,通常EXCEL處理的數(shù)據(jù)更多在10萬條以內(nèi)。Excel功能強大,在數(shù)據(jù)有限的情況下,幾乎可以替代任何分析軟件。


EXCEL——數(shù)據(jù)分析第一神器

首先EXCEL具有非常強大的數(shù)據(jù)采集功能,除了對數(shù)據(jù)手工錄入和復(fù)制粘貼外,EXCEL能夠從網(wǎng)頁中的數(shù)據(jù)表格按照原格式采集。同時EXCEL能導(dǎo)入文本文件,因此在數(shù)據(jù)分析中常用的csv文件就能夠?qū)脒MEXCEL,同時EXCEL還支持SQL語句從數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)??傊R姷臄?shù)據(jù)格式,都能夠?qū)脒MEXCEL中去。

同時,EXCEL的運算功能非常強大,對于EXCEL自身而言,就有大量的函數(shù)可以進行數(shù)學運算,從統(tǒng)計到三角函數(shù),從科學計算再到財務(wù)計算都有覆蓋。利用EXCEL函數(shù),也能夠?qū)崿F(xiàn)數(shù)據(jù)的快速匹配和查找功能。在EXCEL的運算功能中,可以利用VBA編寫相關(guān)的宏代碼,這讓相關(guān)的算法都能夠嵌入到EXCEL中去。因此,借助VBA,EXCEL能夠?qū)崿F(xiàn)任何計算。

EXCEL還具備數(shù)據(jù)鉆取功能。數(shù)據(jù)透視表是EXCEL中一個非常實用的工具,透視能夠讓EXCEL將一張二維表格,按照不同的變量從多個角度來構(gòu)建想要匯總表格,同時還能夠?qū)崿F(xiàn)指標之間的計算。因此,借助數(shù)據(jù)透視表,分析數(shù)據(jù)時,能夠很方便地從多個維度來拆分數(shù)據(jù)進行對比。

另外,EXCEL還有極其高效的數(shù)據(jù)展現(xiàn)功能,EXCEL自身就帶有大量的圖表,其包括了折線圖,直方圖,餅圖等等基礎(chǔ)圖表,以及氣泡圖、蛛網(wǎng)圖等復(fù)合圖表。加上還支持多個圖表之間的組合,因而EXCEL能夠做出各式各樣既能夠準確表明數(shù)據(jù)同時又很美觀的數(shù)據(jù)圖表,如風車圖、南丁格爾圖等等。在當前最熱門的信息圖的繪制,都可以通過EXCEL來完成。還有在最新的EXCEL中,已經(jīng)能夠?qū)氲乩硇畔ⅲ@讓數(shù)據(jù)地圖能夠在EXCEL中實現(xiàn)。

EXCEL是辦公軟件,由于其具有良好的數(shù)據(jù)處理和計算功能,所以常被在數(shù)據(jù)分析中使用。對于數(shù)據(jù)分析,還有一些專業(yè)的軟件和工具可供使用,這些軟件和工具功能更強大,因此也可以算作是數(shù)據(jù)分析的高級武器。


分析工具中的高級武器

在眾多的高級武器中,IBM的SPSS具備操作簡便容易學習的特性,算是入門級軟件。相比其他分析軟件而言,SPSS是圖形化界面,可以像excel一樣,直接通過菜單操作,而不需要編寫代碼。比EXCEL更高級的是,SPSS除了可以使用描述性統(tǒng)計外,還能便捷地使用驗證性統(tǒng)計和探索性統(tǒng)計,進一步地,在SPSS MODELER中能夠?qū)嵤?shù)據(jù)挖掘。SPSS還具備代碼功能,因此對于數(shù)據(jù)分析具有較高的拓展性和自主性。

SPSS具有易操作,能分析的優(yōu)良的特性,但是對于大規(guī)模多維度的數(shù)據(jù)分析,就需要用更專業(yè)的數(shù)據(jù)分析軟件,例如當前市面上常見SAS、MATLAB、PYTHON和R等分析軟件。同時,這些也是較主流的分析軟件。與EXCEL和SPSS不同的是,這類軟件需要通過代碼來完成數(shù)據(jù)分析的操作,因而這在一定程度上也能夠作為編程軟件來使用。這些軟件數(shù)據(jù)處理能力強大,處理的數(shù)據(jù)能夠達到上億條,數(shù)據(jù)的大小能夠達到GB級。此外,這類軟件能夠以通過表格的方式展示數(shù)據(jù),便于使用者隨便查看正在處理的數(shù)據(jù)的情況。

在數(shù)據(jù)分析中,還有用到C語言,JAVA等專業(yè)編程語言的情況。這些編程語言,往往是在相關(guān)的軟件和系統(tǒng)中,將數(shù)據(jù)分析的相關(guān)算法進行嵌入和封裝,其目的是讓軟件和系統(tǒng)實現(xiàn)數(shù)據(jù)分析的功能。這類軟件在數(shù)據(jù)分析領(lǐng)域中的使用,更依賴于前期對數(shù)據(jù)分析算法的邏輯的正確梳理以及對環(huán)境中數(shù)據(jù)結(jié)構(gòu)的正確對接。在當前的數(shù)據(jù)分析招聘啟示中,能夠時常看到對C和JAVA的要求,這些都說明了在軟件的開發(fā)工作中,數(shù)據(jù)分析的重要作用。

SPARK,HADOOP是當前主流的大數(shù)據(jù)處理和平臺和引擎,其能夠處理的數(shù)據(jù)量已經(jīng)能夠到達PB級甚至更高。通過并行計算的機制,即多臺機器同時處理數(shù)據(jù),能夠?qū)崿F(xiàn)對大量數(shù)據(jù)的高速分析。同時,他們也具備多種語言的接口,這使其處理的數(shù)據(jù)能夠在JAVA等編程語言以及R等專業(yè)分析軟件被調(diào)用,因而極大地擴展了大數(shù)據(jù)處理的范圍和場景。

在對數(shù)據(jù)分析工具的而言,從簡單易用的EXCEL到復(fù)雜而功能強大的大數(shù)據(jù)分析平臺都有覆蓋,對于大多數(shù)人來說,EXCEL就已經(jīng)足夠,如果還有更高的數(shù)據(jù)分析要求,就可以切換到其他更高級的工具上去,讓更專業(yè)的人員來完成相應(yīng)的分析工作。

數(shù)據(jù)分析之三重境界

數(shù)據(jù)分析的軟件和工具其實就是用于處理和分析數(shù)據(jù)的神兵利器,是每個要分析數(shù)據(jù)的人都需要能夠使用的。對于這些軟件的使用,可深可淺,只要能夠解決問題就行。不過,伴隨著軟件技能的提升,能夠處理問題的復(fù)雜度和數(shù)據(jù)的復(fù)雜度也會相應(yīng)提升。


數(shù)據(jù)分析的三重境界

對于數(shù)據(jù)分析,共有三重境界,第一重:眼中有表,心中沒表,第二重:眼中有表,心中有表,第三重:眼中沒表,心中有表。每一重境界,都含有“表”字,其實這也說明了,這些軟件都是把數(shù)據(jù)進行表格化的操作和處理。基本在每個軟件中,數(shù)據(jù)都是以二維表的形式存在,每一列代表不同的變量即不同的維度,而每一行代表不同的記錄即每一條記錄了各個維度數(shù)據(jù)的個體。就這樣,在行列之間,各種運算和轉(zhuǎn)換,最終實現(xiàn)了數(shù)據(jù)分析的功能。

首先對第一重境界眼中有表,心中沒表而言,主要是指對數(shù)據(jù)的基本操作,這些操作都是EXCEL的基本應(yīng)用,像一些基本的函數(shù)計算,例如求和、求平均值等等,以及對數(shù)據(jù)用簡單的圖表進行展示。在這重境界中,操作只是集中在眼前表格上,不會有更多的變換和更深層次的結(jié)果輸出。在日常的工作中,這種境界的操作非常常見,比如計算一個班的一門學科的平均分,只需要把一張記錄了這個班學生和單科成績的二維表,對這表所有成績求和后除以人數(shù)就能得出結(jié)果,因此也不需要更多的表格介入進來。

對第二重境界眼中有表,心中有表而言,操作的復(fù)雜程度和難度都遠遠高于第一重,在EXCEL中是對透視表的操作,能夠通過各種維度靈活分解和匯總數(shù)據(jù),以及能夠從多個表格中把數(shù)據(jù)鏈接到一起,這種技術(shù)在數(shù)據(jù)庫的操作中也非常常見。在這重境界與前一重境界不同于心,盡管眼前的表還是簡簡單單的一張數(shù)據(jù)表了,但是心中卻不僅僅是這張表,各種表格存在于心,可以依照心中表格對眼前的表格進行各種轉(zhuǎn)換和改造,既可以以當前這張數(shù)據(jù)表為載體,從多個維度來展示數(shù)據(jù),也可以以這張表為核心,匹配其他表格中的數(shù)據(jù),以擴展本表的信息,總之只要數(shù)據(jù)足夠,各種花樣都能夠玩出來。還是以學生成績?yōu)槔?,一張表包含了學生的姓名,性別、年級、班級,性別,考試科目,成績等等數(shù)據(jù)。在第一重層的境界中,只能對所有成績進行平均以及求和等操作。然而在第二重境界中,就能夠按照班級、性別、年級、科目等對考試成績分類求平均值,同時能夠從不同的維度交叉展示,如展示各班分性別展示,各年級分科目展示等等。同時在取得了不同時間的成績表格后,也能夠把個張成績表上都存在學生單獨提出來,在原有維度數(shù)據(jù)的基礎(chǔ)上再匹配出包含時間的新表出來,這樣就可以進一步地分時間來展示數(shù)據(jù)了。

第三重境界是眼中沒表,心中有表,這一重境界較前一重不同在“眼”,前兩重的境界還需要看著表進行操作,而在這一重境界中則已經(jīng)脫離了眼前的表格,可以不看表就能處理數(shù)據(jù),因而這一重境界也是走向更高水平必須經(jīng)歷的環(huán)節(jié),也是成為高手必須到達的階梯。達到了這一重境界,數(shù)據(jù)分析的操作能夠擺脫EXCEL,使用功能更強大的諸如R、SAS等工具上,通過代碼實現(xiàn)EXCEL中對數(shù)據(jù)的操作。更進一步地,在使用諸如Hadoop等大數(shù)據(jù)工具上,都需要達到這種境界,將心中需要呈現(xiàn)的表格,通過代碼進行實現(xiàn)。第三重境界,重點在心,與前兩重相比,需要更高的結(jié)構(gòu)化思維和整體思維,才能準確地把腦海中構(gòu)想的表格,在工具中實現(xiàn)。

數(shù)據(jù)分析的三重境界,表面上看是對不同軟件應(yīng)用熟悉程度的區(qū)別,而在背后是對數(shù)據(jù)分析思想的理解以及對數(shù)據(jù)分析方法的掌握。軟件操作學會容易,然后對分析思想和分析方法就需要長期的積累和沉淀。其實,數(shù)據(jù)分析工作就像睡蓮,做出的成果都是浮在水面上的看得到的花朵,而決定花朵是否燦爛的,還是取決于水下的根基和吸取的養(yǎng)分,根基和養(yǎng)分其實就是思想的參悟、方法的理解以及工具的熟練,這些不在一時之快,而在日積月累。

總而言之,數(shù)據(jù)分析,人可皆會,心之不同里,境界不同,百般變化,在乎一心。

原文轉(zhuǎn)發(fā),功德無量!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容