從一個從業(yè)者的角度說說對數(shù)據(jù)分析行業(yè)的理解,希望能讓“數(shù)據(jù)分析行業(yè)”在你腦海中有一個清晰的地圖,也希望能夠幫助陷入轉(zhuǎn)行掙扎的你看清方向。
下面總結了7種數(shù)據(jù)分析常用工具以及他們的功能和優(yōu)缺點,希望能夠幫助到你們
excel
Excel算是最常用,使用范圍最廣的數(shù)據(jù)分析工具。常被歸類到辦公軟件的類別中,它可以進行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,廣泛地應用于管理、統(tǒng)計財經(jīng)、金融等眾多領域。
Excel適合于處理簡單的數(shù)據(jù)分析問題,從Excel2010版本開始,Excel增加了數(shù)據(jù)分析工具包,工具包不能直接使用,而是需要使用者手動加載后才能顯示菜單欄中。
常用功能和優(yōu)點:
1. Data Sources 數(shù)據(jù)源:Excel是一種靈活,易于使用的電子表格,通常用于創(chuàng)建數(shù)據(jù)集。它可以借助數(shù)據(jù)連接功能將外部數(shù)據(jù)源中的數(shù)據(jù)提取到電子表格中,還可以從Web,Microsoft Query,SharePoint列表,OData Feed,Hadoop文件(HDFS)等來源獲取數(shù)據(jù)。因此,Excel文件通常用作Power BI和Tableau的數(shù)據(jù)源。
2. 數(shù)據(jù)發(fā)掘:使用Excel需要充分了解數(shù)據(jù)特點才能找到關鍵的信息。Excel中的“股票”和“地理”等選項有助于快速獲取數(shù)據(jù)的詳細信息。
3. 數(shù)據(jù)模型和適用范圍:Excel專主要用于創(chuàng)建具有廣泛功能的結構化和簡單數(shù)據(jù)模型,最適合對結構化數(shù)據(jù)進行統(tǒng)計分析。
4. 數(shù)據(jù)可視化:在使用excel進行數(shù)據(jù)可視化時,需要首先處理存在的數(shù)據(jù),然后手動創(chuàng)建不同的圖表,圖形。為了使可視化易于理解,需要好好學習excel的功能。
5. Dashboards 儀表盤:Excel提供了有限的創(chuàng)建儀表板功能,刷新過程繁瑣。
6. 用戶界面:需要掌握宏和Visual Basic腳本的知識,才能發(fā)揮Excel的最大潛力。
7.語言依賴:Excel以及其他Microsoft Office程序的編程語言是VBA。另外,當你從一個透視表選取項目時,Excel使用MDX來檢索字段和數(shù)值。從Analysis Services多維數(shù)據(jù)集中導入數(shù)據(jù)時,也可以手動生成MDX查詢。
8. 表現(xiàn):Excel的運行速度適中,但是沒有辦法加快。
9. 數(shù)據(jù)可得性:Excel是特定于用戶的。但是,你可以使用Power BI來共享你的Excel工作簿給你的同事們。
關鍵知識點:excel基本函數(shù)(sumif,countif,left,rand等)、lookup(vlookup/hlookup),數(shù)據(jù)透視表
Power BI
Power BI 是一種收集、分析和可視化數(shù)據(jù)以形成可行見解的有效方法。它幫助初創(chuàng)公司和企業(yè)通過操作實時數(shù)據(jù)源來創(chuàng)建具有見解的儀表板。
這些儀表板提供了實時見解,以了解在組織內(nèi)進行的流程的整體性能。你甚至可以外包 Power BI 咨詢和開發(fā),以獲得最佳效果。
Power BI能夠連接到用戶的外部資源,包括SAP HANA,JSON,MySQL等。它可以連接到Microsoft Azure數(shù)據(jù)庫,第三方數(shù)據(jù)庫,文件和在線服務,例如Salesforce和Google Analytics。
Power BI的數(shù)據(jù)模型專注于數(shù)據(jù)提取,并輕松構建潛在的復雜數(shù)據(jù)模型。
常用功能和優(yōu)點:
1. Data Sources 數(shù)據(jù)源:Power BI能夠連接到用戶的外部資源,包括SAP HANA,JSON,MySQL等。它可以連接到Microsoft Azure數(shù)據(jù)庫,第三方數(shù)據(jù)庫,文件和在線服務,例如Salesforce和Google Analytics。當用戶從多個來源添加數(shù)據(jù)時,Tableau和Power BI會自動關聯(lián)。但Power BI連接有限的數(shù)據(jù)源,同時會在每月更新中增加其數(shù)據(jù)源連接器。
2. 數(shù)據(jù)發(fā)掘:Power BI可以自由瀏覽數(shù)據(jù)而無需提前知道所需的答案。可以先發(fā)現(xiàn)關聯(lián)和趨勢,然后深入了解導致其發(fā)生的原因。這些系統(tǒng)能一目了然地了解數(shù)據(jù)。
3. 數(shù)據(jù)模型和適用范圍:Power BI的數(shù)據(jù)模型專注于數(shù)據(jù)提取,并輕松構建潛在的復雜數(shù)據(jù)模型。
4. 數(shù)據(jù)可視化:使用Power BI將側邊欄中的數(shù)據(jù)插入到可視化中。它還允許用戶通過使用自然語言進行查詢來創(chuàng)建可視化效果。當深入到數(shù)據(jù)集進行分析時,Power BI確實設置了3500個數(shù)據(jù)點限制。但是,此數(shù)據(jù)點限制有一些例外:R視覺效果的最大數(shù)據(jù)點限制為1,50,000,Power BI視覺效果的最大數(shù)據(jù)點限制為30,000數(shù)據(jù)點,散點圖的最大數(shù)據(jù)點限制為10,000數(shù)據(jù)點 。
5. Dashboards 儀表盤:Power BI可以輕松刷新儀表板,以創(chuàng)建美觀的儀表板
6. 用戶界面:Power BI 的界面不需要編碼知識就能開發(fā)精細且復雜的可視化報表。Power BI 用戶界面非常易學,也因此被用戶偏愛。
7.語言依賴:DAX和M是Power BI使用的語言;兩種語言在創(chuàng)建Power BI模型時,有著不同的使用方式,且相互獨立。M是一種公式查詢語言。在將數(shù)據(jù)加載到Power BI模型之前,可以使用M語言在power query編輯器中查看、編輯和準備數(shù)據(jù)。
8. 表現(xiàn):Power BI更加關注報告和分析模型,使用Power BI你可以通過將你的儀表盤發(fā)表到一個工作空間里來保存和共享它,其他人可以在上面合作編輯。存儲容量限制取決于工作區(qū)的類型(共享或高級)。
有 200 多個預定義代碼的DAX 數(shù)據(jù)分析功能,可以對數(shù)據(jù)執(zhí)行特定的分析功能。
內(nèi)容翔實的報告在許多方面構成了數(shù)據(jù)的結構化表示,并從數(shù)據(jù)中揭示了有用的見解。
從不同的數(shù)據(jù)源獲取數(shù)據(jù),例如從結構化到非結構化,以及基于云端的系統(tǒng)到內(nèi)部部署系統(tǒng)。
可使用 Office 365 套件通過 Power Query 和 Power Map 輕松集成到大數(shù)據(jù)分析中。
關鍵知識點:增刪改查,特別是條件查詢(where, group by, order by等)
Tableau
Tableau發(fā)行于2003年,是一種交互式數(shù)據(jù)可視化軟件,被公認為增長最快的數(shù)據(jù)可視化工具,主要是因為它能夠幫助用戶查看和理解數(shù)據(jù)。它將原始數(shù)據(jù)轉(zhuǎn)換成可理解的視覺效果,從而改變?nèi)藗兪褂脭?shù)據(jù)進行問題解決和決策的方式。
常用功能和優(yōu)點:
1. Data Sources 數(shù)據(jù)源:Tableau支持數(shù)百種數(shù)據(jù)連接器,包括在線分析處理(OLAP)和大數(shù)據(jù)(例如NoSQL,Hadoop)以及云數(shù)據(jù)。
2. 數(shù)據(jù)發(fā)掘:通過Tableau,你可以自由瀏覽數(shù)據(jù)而無需提前知道所需的答案??梢韵劝l(fā)現(xiàn)關聯(lián)和趨勢,然后深入了解導致其發(fā)生的原因。這些系統(tǒng)能一目了然地了解數(shù)據(jù)。
3. 數(shù)據(jù)模型和適用范圍:Tableau可以創(chuàng)建簡單的數(shù)據(jù)模型,例如單個表,也可以創(chuàng)建更復雜的數(shù)據(jù)模型,其中多個表使用關系,聯(lián)接和聯(lián)合的不同組合。它最適合快速,輕松地表示大數(shù)據(jù),有助于解決大數(shù)據(jù)問題。
4. 數(shù)據(jù)可視化:使用Tableau,用戶可以創(chuàng)建不同類型的基線可視化圖表,包括熱圖,折線圖和散點圖。此外,用戶可以創(chuàng)建數(shù)據(jù)“如果”的情況,還可以自由地在分析中使用任何數(shù)量的數(shù)據(jù)點。
6. 用戶界面:Tableau 的界面不需要編碼知識就能開發(fā)精細且復雜的可視化報表。Tableau有一個智能用戶界面,能夠容易地創(chuàng)建儀表盤,但Power BI更簡單。
7.語言依賴:Tableau的軟件工程師使用多種編程語言,但組成Tableau Desktop代碼最主要的語言是C++。
8. 表現(xiàn):Tableau和Power BI運行速度也適中但是可以優(yōu)化和增強,Tableau勝在速度和能力。
9. 數(shù)據(jù)可得性:在Tableau上創(chuàng)建的可視化報表可以在Tableau服務器上被保存和共享給其他的Tableau使用者。
Tableau可以創(chuàng)建簡單的數(shù)據(jù)模型,例如單個表,也可以創(chuàng)建更復雜的數(shù)據(jù)模型,其中多個表使用關系,聯(lián)接和聯(lián)合的不同組合。它最適合快速,輕松地表示大數(shù)據(jù),有助于解決大數(shù)據(jù)問題。
MySQL
MySQL 作為互聯(lián)網(wǎng)中非常熱門的數(shù)據(jù)庫,在高并發(fā)業(yè)務場景下,一條好的 MySQL 語句能為企業(yè)節(jié)省大量的運作時間和成本,這也是為何互聯(lián)網(wǎng)大廠面試官最愛考察數(shù)據(jù)庫底層和性能調(diào)優(yōu)的原因。
因此,了解其底層原理和架構的設計非常重要,尤其是MySQL的存儲引擎,很大程度上決定了 MySQL 整體的執(zhí)行效率和工作性能。
SPSS
SPSS是世界上最早的統(tǒng)計分析軟件。
常用功能和優(yōu)點:
1、操作簡便:界面非常友好,除了數(shù)據(jù)錄入及部分命令程序等少數(shù)輸入工作需要鍵盤鍵入外,大多數(shù)操作可通過鼠標拖曳、點擊“菜單”、“按鈕”和“對話框”來完成。
2、編程方便:具有第四代語言的特點,告訴系統(tǒng)要做什么,無需告訴怎樣做。只要了解統(tǒng)計分析的原理,無需通曉統(tǒng)計方法的各種算法,即可得到需要的統(tǒng)計分析結果。對于常見的統(tǒng)計方法,SPSS的命令語句、子命令及選擇項的選擇絕大部分由“對話框”的操作完成。因此,用戶無需花大量時間記憶大量的命令、過程、選擇項。
3、功能強大:具有完整的數(shù)據(jù)輸入、編輯、統(tǒng)計分析、報表、圖形制作等功能。自帶11種類型136個函數(shù)。SPSS提供了從簡單的統(tǒng)計描述到復雜的多因素統(tǒng)計分析方法,比如數(shù)據(jù)的探索性分析、統(tǒng)計描述、列聯(lián)表分析、二維相關、秩相關、偏相關、方差分析、非參數(shù)檢驗、多元回歸、生存分析、協(xié)方差分析、判別分析、因子分析、聚類分析、非線性回歸、Logistic回歸等。
4、數(shù)據(jù)接口:能夠讀取及輸出多種格式的文件。比如由dBASE、FoxBASE、FoxPRO產(chǎn)生的*.dbf文件,文本編輯器軟件生成的ASCⅡ數(shù)據(jù)文件,Excel的*.xls文件等均可轉(zhuǎn)換成可供分析的SPSS數(shù)據(jù)文件。能夠把SPSS的圖形轉(zhuǎn)換為7種圖形文件。結果可保存為*.txt及html格式的文件。
5、模塊組合:SPSS for Windows軟件分為若干功能模塊。用戶可以根據(jù)自己的分析需要和計算機的實際配置情況靈活選擇。
6、針對性強:SPSS針對初學者、熟練者及精通者都比較適用。并且很多群體只需要掌握簡單的操作分析,大多青睞于SPSS。
SAS
SAS是全球最大的軟件公司之一,是由美國NORTH CAROLINA州立大學1966年開發(fā)的統(tǒng)計分析軟件。SAS把數(shù)據(jù)存取、管理、分析和展現(xiàn)有機地融為一體。
常用功能和優(yōu)點:
1、功能強大,統(tǒng)計方法齊,全,新:SAS提供了從基本統(tǒng)計數(shù)的計算到各種試驗設計的方差分析,相關回歸分析以及多變數(shù)分析的多種統(tǒng)計分析過程,幾乎囊括了所有最新分析方法,其分析技術先進,可靠。分析方法的實現(xiàn)通過過程調(diào)用完成。許多過程同時提供了多種算法和選項。
2、使用簡便,操作靈活:SAS以一個通用的數(shù)據(jù)(DATA)步產(chǎn)生數(shù)據(jù)集,爾后以不同的過程調(diào)用完成各種數(shù)據(jù)分析。
其編程語句簡潔,短小,通常只需很小的幾句語句即可完成一些復雜的運算,得到滿意的結果。
結果輸出以簡明的英文給出提示,統(tǒng)計術語規(guī)范易懂,具有初步英語和統(tǒng)計基礎即可。
使用者只要告訴SAS“做什么”,而不必告訴其“怎么做”。
同時SAS的設計,使得任何SAS能夠“猜”出的東西用戶都不必告訴它(即無需設定),并且能自動修正一些小的錯誤(例如將DATA語句的DATA拼寫成DATE,SAS將假設為DATA繼續(xù)運行,僅在LOG中給出注釋說明)。對運行時的錯誤它盡可能地給出錯誤原因及改正方法。因而SAS將統(tǒng)計的科學,嚴謹和準確與便于使用者有機地結合起來,極大地方便了使用者。
3、提供聯(lián)機幫助功能:使用過程中按下功能鍵F1,可隨時獲得幫助信息,得到簡明的操作指導。
Python
Python是一種面向?qū)ο蟆⒔忉屝陀嬎銠C程序設計語言。Python語法簡潔而清晰,具有豐富和強大的類庫。它常被昵稱為膠水語言,能夠把用其他語言制作的各種模塊輕松地聯(lián)結在一起。
常用功能和優(yōu)點:
1.簡單:Python是一種代表簡單主義思想的語言。閱讀一個良好的Python程序就感覺像是在讀英語一樣,盡管這個英語的要求非常嚴格!Python的這種偽代碼本質(zhì)是它最大的優(yōu)點之一。它使你能夠?qū)W⒂诮鉀Q問題而不是去搞明白語言本身。
2.易學:就如同你即將看到的一樣,Python極其容易上手。前面已經(jīng)提到了,Python有極其簡單的語法。
3:免費開源:Python是 FLOSS(自由/開放源碼軟件)之一。簡單地說,你可以自 由地發(fā)布這個軟件的拷貝、閱讀它的源代碼、對它做改動、把它的一部分用于新的自由軟件中。FLOSS是基于一個團體分享知識的概念。這是為什么 Python如此優(yōu)秀的原因之一——它是由一群希望看到一個更加優(yōu)秀的Python的人創(chuàng)造并經(jīng)常改進著的。
4:高層語言:當你用Python語言編寫程序的時候,你無需考慮諸如如何管理你的程序使用的內(nèi)存一類的底層細節(jié)。
5:可移植性:由于它的開源本質(zhì),Python已經(jīng)被移植在許多平臺上(經(jīng)過改動使它能夠工 作在不同平臺上)。如果你小心地避免使用依賴于系統(tǒng)的特性,那么你的所有Python程序無需修改就可以在下述任何平臺上面運行。這些平臺包括 Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS /390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE甚至還有PocketPC和Symbian!
6.面向?qū)ο?Python既支持面向過程的編程也支持面向?qū)ο蟮木幊獭T凇懊嫦蜻^程”的語 言中,程序是由過程或僅僅是可重用代碼的函數(shù)構建起來的。在“面向?qū)ο蟆钡恼Z言中,程序是由數(shù)據(jù)和功能組合而成的對象構建起來的。與其他主要的語言如 C++和Java相比,Python以一種非常強大又簡單的方式實現(xiàn)面向?qū)ο缶幊獭?/p>
7:可擴展性:如果你需要你的一段關鍵代碼運行得更快或者希望某些算法不公開,你可以把你的部分程序用C或C++編寫,然后在你的Python程序中使用它們。
8.可嵌入性:你可以把Python嵌入你的C/C++程序,從而向你的程序用戶提供腳本功能。
9:豐富的庫:Python標準庫確實很龐大。它可以幫助你處理各種工作,包括正則表達式、 文檔生成、單元測試、線程、數(shù)據(jù)庫、網(wǎng)頁瀏覽器、CGI、FTP、電子郵件、XML、XML-RPC、HTML、WAV文件、密碼系統(tǒng)、GUI(圖形用戶 界面)、Tk和其他與系統(tǒng)有關的操作。記住,只要安裝了Python,所有這些功能都是可用的。這被稱作Python的“功能齊全”理念。除了標準庫以 外,還有許多其他高質(zhì)量的庫,如wxPython、Twisted和Python圖像庫等等。
總的來說,如果想要從事數(shù)據(jù)分析這個崗位,學會用Python是非常有必要的!Python確實是一種十分精彩又強大的語言。它合理地結合了高性能與使得編寫程序簡單有趣的特色。
關鍵知識點:numpy,pandas,matplotib,seaborn包的熟練使用
python核心知識導圖
關注公眾號:數(shù)據(jù)分析輕松學,即可獲取完整版
注意,python可以干的事兒太多了,從web開發(fā)到算法模型,瞄準你的目標-數(shù)據(jù)分析,專注學我說的這幾個包就可以了。