<p>最近一直沒(méi)有更新文章,在學(xué)習(xí)Machine learning。然后業(yè)余在kaggle那里瞎轉(zhuǎn),對(duì)Python常用的作圖摸了個(gè)遍,本文將對(duì)這些作圖方法做個(gè)簡(jiǎn)單介紹</p>
<p>一般我們作圖主要是為了看數(shù)據(jù)分布、數(shù)據(jù)趨勢(shì)、以及比較大小。常用的圖包括:</p>
- line(折線圖):展示趨勢(shì)
- scatter (散點(diǎn)圖):展示分布(機(jī)械學(xué)習(xí)中經(jīng)常使用)
- bar (柱狀圖):感覺(jué)柱狀圖主要是多項(xiàng)目的趨勢(shì)比較
- pie (餅圖):展示分布
- box (箱型圖):展示單個(gè)項(xiàng)目數(shù)據(jù)的分布細(xì)節(jié)
- heatmap (熱力圖):主要是列聯(lián)表表示數(shù)據(jù)相對(duì)大小
<p>作圖的工具有很多,例如Pandas、Seaborn、ggplot、Bokeh、Plotly、Pypal。而對(duì)于我來(lái)說(shuō),作圖的工具主要就是兩種matplotlib和seaborn兩種。matplotlib可以在numpy數(shù)組里面使用,也可以處理pandas中的dataframe。</p>
<p>此外matplotlib還是python作圖的基礎(chǔ)包,大部分作圖模塊都是基于matplotlib來(lái)的,因此matplotlib的自定義屬性最高。為了減少美化以及配色的麻煩,我一般時(shí)候喜歡作圖的使用通過(guò)引用ggplot的style來(lái)解決美化問(wèn)題:</p>
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot') ##使得作圖自帶色彩,這樣不用費(fèi)腦筋去考慮配色什么的;
%matplotlib inline
numpy array的作圖
<p>numpy數(shù)組主要是出現(xiàn)在python的數(shù)據(jù)分析里面,例如,在監(jiān)督型學(xué)習(xí)的時(shí)候,需要做對(duì)分布的散點(diǎn)進(jìn)行模式識(shí)別,并擬合。在擬合的過(guò)程中,需要用到梯度下降法,為了快速了解收斂的過(guò)程,需要對(duì)cost function進(jìn)行監(jiān)督。</p>
<p>在這里先不描述梯度下降法的作圖方法,先簡(jiǎn)單介紹numpy數(shù)組的散點(diǎn)圖以及擬合方法(注意poly1d不是擬合方法,而是一個(gè)多項(xiàng)式生成器,真正的擬合在polyfit那里)。通過(guò)linspace生成一組數(shù)據(jù),并引入random:</p>
x = np.linspace(1,10,80)
y = x + np.random.standard_normal(size=80)
y_s = np.ploy1d(np.plotfit(x,y,1))(x)
plt.scatter(x,y)
plt.plot(x, y_s)
plt.show()
<p>這樣就可以生成下面的這個(gè)圖了:</p>

<p>當(dāng)然,可以看到。這個(gè)圖里面散點(diǎn)的點(diǎn)比較大,可以通過(guò)改變s參數(shù)更改散點(diǎn)的大?。ㄈ绻麑變?yōu)橐粋€(gè)函數(shù),那么散點(diǎn)圖就可以成為泡沫圖了),線可以通過(guò)linewidth 加粗。在這里,我們將s調(diào)大,并將其調(diào)成半透明,將線加粗,加入軸說(shuō)明和圖表抬頭(title的字號(hào)大小通過(guò)fontsize來(lái)改變):</p>
x = np.linspace(1,10,80)
y = x + np.random.standard_normal(size=80)
plt.scatter(x,y, s = 20, alpha=0.2)
plt.plot(x, y_s, linewidth = 2)
plt.xlabel('area')
plt.ylabel('price')
plt.legend(('fit', 'origin'), loc = 'best', fontsize = 8)
plt.title('the price of the house with various area', {'fontsize':10})
plt.show()

Pandas的作圖方法
<p>dataframe里面一般涉及幾組參數(shù),一般無(wú)外乎是通過(guò)作圖來(lái)發(fā)現(xiàn)參數(shù)組之間的規(guī)律或者關(guān)系。并且Pandas里面所有的作圖可以都可以通過(guò)df.plot來(lái)實(shí)現(xiàn),不同的圖僅僅需要plot函數(shù)中的kind參數(shù),將其改為ine、scatter、bar和pie等可以生成對(duì)應(yīng)的圖,詳細(xì)需要看Visualization章節(jié)。在這里,我將以散點(diǎn)圖為例做一個(gè)講解:</p>
x = np.linspace(0,10,101) + np.random.normal(1,0.5,101)
y = np.linspace(20,30,101) + np.random.normal(1,0.5,101)
z = np.linspace(40,50,101) + np.random.normal(1,0.5,101)
df = pd.DataFrame({'x':x, 'y':y, 'z':z, 'H' : 2*x ** 3 + 3*np.log10(y)+4*z})
df.head(5)
<p>先生成一個(gè)數(shù)據(jù)表格:</p>

<p>例如,我想看x-H的散點(diǎn)圖關(guān)系??梢詫⑵渲械膋ind參數(shù)設(shè)置為scatter,x和y的值取為對(duì)應(yīng)列的名稱,加入title就可以了:</p>
df.plot(kind='scatter', x='x', y='H')
plt.title('x vs H')
plt.show()

<p>當(dāng)然,如果我想同時(shí)看x,y,z對(duì)H的影響,似乎就要將上面的這個(gè)圖重復(fù)三遍,比較麻煩。Pandas里面的scatter_matrix就可以解決這個(gè)問(wèn)題,引用pandas.tools.plotting中的scatter_matrix函數(shù):</p>
from pandas.tools.plotting import scatter_matrix
scatter_matrix(df, figsize=(10,1 0), diagonal='kde')
plt.suptitle('the inflence of x,y,z to H')
plt.show()

Heatmap
<p>這是一種比較特殊的圖,一般是對(duì)pivot_table的可視化展出,由于這種展示效果比較好,也比較直觀,所以想在這里稍微提一下。先給出heatmap中的例子,稍微作了下改動(dòng),展示的是6*6隨機(jī)數(shù)矩陣:</p>
import numpy as np
import seaborn as sns
random_set = np.random.randint(0,10,(6,6))
sns.heatmap(random_set)
<p>在一開(kāi)始我提到了,這個(gè)東西比較多的可以用在pivot_table里面,舉個(gè)例子,我要展示幾個(gè)旗艦店(A店、B店、C店)的商品(a、b、c、d、e)的銷量。手頭上沒(méi)有數(shù)據(jù),生成個(gè)隨機(jī)數(shù)組湊合著用吧:</p>
mall_all = ['mall_A', 'mall_B', 'mall_C']
com_all = ['commodity_a', 'commodity_b','commodity_c', 'commodity_d', 'commodity_e']
mall = np.random.choice(mall_all,(1,100))[0]
com = np.random.choice(com_all, (1,100))[0]
ammout = np.random.randint(1,10,(100))
index = np.linspace(1,100, 100)
df = pd.DataFrame({'mall':mall, 'com':com, 'amount':ammout}, index=index, columns=['mall', 'com', 'amount'])
df.head()
<p>生成出來(lái)的數(shù)據(jù)大概是這個(gè)樣子的:</p>

<p>對(duì)其進(jìn)行數(shù)據(jù)透視,以Mall為列,以Commodity為行,總計(jì)售出商品數(shù)量:</p>
pivot_df = pd.pivot_table(df, index='com', columns='mall', values=['amount'], aggfunc=np.sum)
pivot_df

<p>通過(guò)heatmap將其進(jìn)行可視化轉(zhuǎn)化:</p>
sns.heatmap(pivot_df)
plt.xlabel('Mall')
plt.ylabel('Commodity')
plt.title('Mall_Commodity')
plt.show()

<p>使用heatmap的幾個(gè)重要的參數(shù),vmin和vmax可以控制整圖的最小和最大值,cmap為整體配色方案,annot參數(shù)用來(lái)控制是否顯示原始數(shù)據(jù),fmt用來(lái)控制展示數(shù)據(jù)格式,linewidths和linecolor用來(lái)控制分割線的粗細(xì)以及顏色,cbar用來(lái)確認(rèn)是否顯示圖例。下面將調(diào)整一下最大和最小值,并且打開(kāi)annot,更改整體配色方案,將分割線加粗并設(shè)置為白色看看:</p>
sns.heatmap(pivot_df, vmax=80, annot=True, linecolor='white', linewidths=0.5, cmap='RdBu_r')
plt.xlabel('Mall')
plt.ylabel('Commodity')
plt.title('Mall_Commodity')
plt.show()

小結(jié)
<p>想想,作圖也是我在python學(xué)習(xí)里面的一個(gè)巨坑,因?yàn)槊詈蛥?shù)比較多,但是用的比較少,偏偏作圖包還比較多,一直搞不太懂各種的邏輯,所以一直忘記。這一次經(jīng)過(guò)給自己一個(gè)詳細(xì)的總結(jié)之后,應(yīng)該會(huì)好很多。</p>
<p>在Python作圖里面,還有一類圖比較常見(jiàn),就是地圖。之前雖然我也有利用plotly玩過(guò),但感覺(jué)還是沒(méi)有進(jìn)到里面的細(xì)節(jié)。我會(huì)再用一篇文章詳細(xì)講述一下,敬請(qǐng)期待。</p>