
當我們的爬蟲程序已經(jīng)完成使命,幫我們抓取大量的數(shù)據(jù)。你內(nèi)心也許會空落落的?;蛟S你會疑惑,自己抓取這些數(shù)據(jù)有啥用?如果要拿去分析,那要怎么分析呢?
說到數(shù)據(jù)分析,Python 完全能夠勝任這方面的工作。Python 究竟如何在數(shù)據(jù)分析領(lǐng)域做到游刃有余?因為它有“四板斧”,分別是Matplotlib、NumPy、SciPy/Pandas。Matplotlib 是畫圖工具,NumPy 是矩陣運算庫,SciPy 是數(shù)學(xué)運算工具,Pandas 是數(shù)據(jù)處理的工具。
1 為什么選擇 Matplotlib?
Python 有很多強大的畫圖庫,為什么我偏偏獨愛 Maplotlib?我先買個關(guān)子,先來看看還有哪些庫。
Seaborn
Seaborn 是一個基于 Matplotlib 的高級可視化效果庫, 偏向于統(tǒng)計作圖。因此,針對的點主要是數(shù)據(jù)挖掘和機器學(xué)習(xí)中的變量特征選取。相比 Matplotlib ,它語法相對簡化些,繪制出來的圖不需要花很多功夫去修飾。但是它繪圖方式比較局限,不過靈活。Bokeh
Bokeh 是基于 javascript 來實現(xiàn)交互可視化庫,它可以在WEB瀏覽器中實現(xiàn)美觀的視覺效果。但是它也有明顯的缺點。其一是版本時常更新,最重要的是有時語法還不向下兼容。這對于我們來說是噩夢。其二是語法晦澀,與 matplotlib做比較,可以說是有過之而無不及。ggplot
ggplot 是 yhat 大神基于 R 語言的 ggplot2 制作的 python 版本庫。 如果你使用 R 語言的話,ggplot2 可以算是必不可少的工具。所以,很多人都推薦使用該庫。不過可惜的是,yhat 大神已經(jīng)停止維護該庫了。Plotly
Plotly 也是一個做可視化交互的庫。它不僅支持 Python 還支持 R 語言。Plotly 的優(yōu)點是能提供 WEB 在線交互,配色也真心好看。如果你是一名數(shù)據(jù)分析師,Plotly 強大的交互功能能助你一臂之力完成展示。Mapbox
Mapbox 使用處理地理數(shù)據(jù)引擎更強的可視化工具庫。如果你需要繪制地理圖,那么它值得你信賴。
總之, Python 繪圖庫眾多,各有特點。但是 Maplotlib 是最基礎(chǔ)的 Python 可視化庫。如果你將學(xué)習(xí) Python 數(shù)據(jù)可視化。那么 Maplotlib 是非學(xué)不可,然后再學(xué)習(xí)其他庫做縱橫向的拓展。
2 Matplotlib 能繪制什么圖?
Matiplotlib 非常強大,所以最基本的圖表自然不在話下。例如說:
直線圖

曲線圖

柱狀圖

直方圖

餅圖

散點圖

只能繪制這些最基礎(chǔ)的圖?顯示是不可能的,還能繪制些高級點的圖
例如:
高級點的柱狀圖

等高線圖

類表格圖形

不僅僅只有這些,還能繪制 3D 圖形。例如:
三維柱狀圖

3D 曲面圖

因此,Matplotlib 繪制的圖種類能夠滿足我們做數(shù)據(jù)分析了。
3 安裝 Matplotlib
看到這里,你是否驚嘆不已,很很迫不及待地想學(xué)習(xí) Matplotlib。而工欲善其事,必先利其器。我們先來學(xué)習(xí)如何安裝 Matplotlib。其實也是很簡單,我們借助 pip 工具來安裝。
在終端執(zhí)行以下命令來安裝 Matplotlib
pip install Matplotlib
# 如果出現(xiàn)因下載失敗導(dǎo)致安裝不上的情況,可以先啟動 ss 再執(zhí)行安裝命令
# 或者在終端中使用代理
pip --proxy http://代理ip:端口 install Matplotlib
上篇閱讀:爬蟲系列的總結(jié)
推薦閱讀:
爬蟲實戰(zhàn)二:爬取電影天堂的最新電影
深入理解HTTP