Python做圖的方法

<p>最近一直沒(méi)有更新文章,在學(xué)習(xí)Machine learning。然后業(yè)余在kaggle那里瞎轉(zhuǎn),對(duì)Python常用的作圖摸了個(gè)遍,本文將對(duì)這些作圖方法做個(gè)簡(jiǎn)單介紹</p>

<p>一般我們作圖主要是為了看數(shù)據(jù)分布、數(shù)據(jù)趨勢(shì)、以及比較大小。常用的圖包括:</p>

  • line(折線圖):展示趨勢(shì)
  • scatter (散點(diǎn)圖):展示分布(機(jī)械學(xué)習(xí)中經(jīng)常使用)
  • bar (柱狀圖):感覺(jué)柱狀圖主要是多項(xiàng)目的趨勢(shì)比較
  • pie (餅圖):展示分布
  • box (箱型圖):展示單個(gè)項(xiàng)目數(shù)據(jù)的分布細(xì)節(jié)
  • heatmap (熱力圖):主要是列聯(lián)表表示數(shù)據(jù)相對(duì)大小

<p>作圖的工具有很多,例如Pandas、Seaborn、ggplot、Bokeh、Plotly、Pypal。而對(duì)于我來(lái)說(shuō),作圖的工具主要就是兩種matplotlibseaborn兩種。matplotlib可以在numpy數(shù)組里面使用,也可以處理pandas中的dataframe。</p>

<p>此外matplotlib還是python作圖的基礎(chǔ)包,大部分作圖模塊都是基于matplotlib來(lái)的,因此matplotlib的自定義屬性最高。為了減少美化以及配色的麻煩,我一般時(shí)候喜歡作圖的使用通過(guò)引用ggplot的style來(lái)解決美化問(wèn)題:</p>

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    plt.style.use('ggplot')   ##使得作圖自帶色彩,這樣不用費(fèi)腦筋去考慮配色什么的;
    %matplotlib inline

numpy array的作圖

<p>numpy數(shù)組主要是出現(xiàn)在python的數(shù)據(jù)分析里面,例如,在監(jiān)督型學(xué)習(xí)的時(shí)候,需要做對(duì)分布的散點(diǎn)進(jìn)行模式識(shí)別,并擬合。在擬合的過(guò)程中,需要用到梯度下降法,為了快速了解收斂的過(guò)程,需要對(duì)cost function進(jìn)行監(jiān)督。</p>

<p>在這里先不描述梯度下降法的作圖方法,先簡(jiǎn)單介紹numpy數(shù)組的散點(diǎn)圖以及擬合方法(注意poly1d不是擬合方法,而是一個(gè)多項(xiàng)式生成器,真正的擬合在polyfit那里)。通過(guò)linspace生成一組數(shù)據(jù),并引入random:</p>

    x = np.linspace(1,10,80)
    y = x + np.random.standard_normal(size=80)
    y_s = np.ploy1d(np.plotfit(x,y,1))(x)
    plt.scatter(x,y)
    plt.plot(x, y_s)
    plt.show()

<p>這樣就可以生成下面的這個(gè)圖了:</p>

一維擬合

<p>當(dāng)然,可以看到。這個(gè)圖里面散點(diǎn)的點(diǎn)比較大,可以通過(guò)改變s參數(shù)更改散點(diǎn)的大?。ㄈ绻麑變?yōu)橐粋€(gè)函數(shù),那么散點(diǎn)圖就可以成為泡沫圖了),線可以通過(guò)linewidth 加粗。在這里,我們將s調(diào)大,并將其調(diào)成半透明,將線加粗,加入軸說(shuō)明和圖表抬頭(title的字號(hào)大小通過(guò)fontsize來(lái)改變):</p>

    x = np.linspace(1,10,80)
    y = x + np.random.standard_normal(size=80)
    plt.scatter(x,y, s = 20, alpha=0.2)
    plt.plot(x, y_s, linewidth = 2)
    plt.xlabel('area')
    plt.ylabel('price')
    plt.legend(('fit', 'origin'), loc = 'best', fontsize = 8)
    plt.title('the price of the house with various area', {'fontsize':10})
    plt.show()
更改后的一維擬合

Pandas的作圖方法

<p>dataframe里面一般涉及幾組參數(shù),一般無(wú)外乎是通過(guò)作圖來(lái)發(fā)現(xiàn)參數(shù)組之間的規(guī)律或者關(guān)系。并且Pandas里面所有的作圖可以都可以通過(guò)df.plot來(lái)實(shí)現(xiàn),不同的圖僅僅需要plot函數(shù)中的kind參數(shù),將其改為ine、scatter、bar和pie等可以生成對(duì)應(yīng)的圖,詳細(xì)需要看Visualization章節(jié)。在這里,我將以散點(diǎn)圖為例做一個(gè)講解:</p>

    x = np.linspace(0,10,101) + np.random.normal(1,0.5,101)
    y = np.linspace(20,30,101) + np.random.normal(1,0.5,101)
    z = np.linspace(40,50,101) + np.random.normal(1,0.5,101)
    df = pd.DataFrame({'x':x, 'y':y, 'z':z, 'H' : 2*x ** 3 + 3*np.log10(y)+4*z})
    df.head(5)

<p>先生成一個(gè)數(shù)據(jù)表格:</p>

df

<p>例如,我想看x-H的散點(diǎn)圖關(guān)系??梢詫⑵渲械膋ind參數(shù)設(shè)置為scatter,x和y的值取為對(duì)應(yīng)列的名稱,加入title就可以了:</p>

    df.plot(kind='scatter', x='x', y='H')
    plt.title('x vs H')
    plt.show()
x vs H

<p>當(dāng)然,如果我想同時(shí)看x,y,z對(duì)H的影響,似乎就要將上面的這個(gè)圖重復(fù)三遍,比較麻煩。Pandas里面的scatter_matrix就可以解決這個(gè)問(wèn)題,引用pandas.tools.plotting中的scatter_matrix函數(shù):</p>

  from pandas.tools.plotting import scatter_matrix
  scatter_matrix(df, figsize=(10,1  0), diagonal='kde')
  plt.suptitle('the inflence of x,y,z to H')
  plt.show()
xyz vs H

Heatmap

<p>這是一種比較特殊的圖,一般是對(duì)pivot_table的可視化展出,由于這種展示效果比較好,也比較直觀,所以想在這里稍微提一下。先給出heatmap中的例子,稍微作了下改動(dòng),展示的是6*6隨機(jī)數(shù)矩陣:</p>

    import numpy as np
    import seaborn as sns
    random_set = np.random.randint(0,10,(6,6))
    sns.heatmap(random_set)

<p>在一開(kāi)始我提到了,這個(gè)東西比較多的可以用在pivot_table里面,舉個(gè)例子,我要展示幾個(gè)旗艦店(A店、B店、C店)的商品(a、b、c、d、e)的銷量。手頭上沒(méi)有數(shù)據(jù),生成個(gè)隨機(jī)數(shù)組湊合著用吧:</p>

    mall_all = ['mall_A', 'mall_B', 'mall_C']
    com_all = ['commodity_a', 'commodity_b','commodity_c', 'commodity_d', 'commodity_e']
    mall = np.random.choice(mall_all,(1,100))[0]
    com = np.random.choice(com_all, (1,100))[0]
    ammout = np.random.randint(1,10,(100))
    index = np.linspace(1,100, 100)
    df = pd.DataFrame({'mall':mall, 'com':com, 'amount':ammout}, index=index, columns=['mall', 'com', 'amount'])
    df.head()

<p>生成出來(lái)的數(shù)據(jù)大概是這個(gè)樣子的:</p>

隨機(jī)原始數(shù)據(jù)

<p>對(duì)其進(jìn)行數(shù)據(jù)透視,以Mall為列,以Commodity為行,總計(jì)售出商品數(shù)量:</p>

    pivot_df = pd.pivot_table(df, index='com', columns='mall', values=['amount'], aggfunc=np.sum)
    pivot_df
數(shù)據(jù)透視后

<p>通過(guò)heatmap將其進(jìn)行可視化轉(zhuǎn)化:</p>

    sns.heatmap(pivot_df)
    plt.xlabel('Mall')
    plt.ylabel('Commodity')
    plt.title('Mall_Commodity')
    plt.show()
數(shù)據(jù)透視的可視化

<p>使用heatmap的幾個(gè)重要的參數(shù),vmin和vmax可以控制整圖的最小和最大值,cmap為整體配色方案,annot參數(shù)用來(lái)控制是否顯示原始數(shù)據(jù),fmt用來(lái)控制展示數(shù)據(jù)格式,linewidths和linecolor用來(lái)控制分割線的粗細(xì)以及顏色,cbar用來(lái)確認(rèn)是否顯示圖例。下面將調(diào)整一下最大和最小值,并且打開(kāi)annot,更改整體配色方案,將分割線加粗并設(shè)置為白色看看:</p>

    sns.heatmap(pivot_df, vmax=80, annot=True, linecolor='white', linewidths=0.5, cmap='RdBu_r')
    plt.xlabel('Mall')
    plt.ylabel('Commodity')
    plt.title('Mall_Commodity')
    plt.show()
數(shù)據(jù)透視的可視化_改

小結(jié)

<p>想想,作圖也是我在python學(xué)習(xí)里面的一個(gè)巨坑,因?yàn)槊詈蛥?shù)比較多,但是用的比較少,偏偏作圖包還比較多,一直搞不太懂各種的邏輯,所以一直忘記。這一次經(jīng)過(guò)給自己一個(gè)詳細(xì)的總結(jié)之后,應(yīng)該會(huì)好很多。</p>

<p>在Python作圖里面,還有一類圖比較常見(jiàn),就是地圖。之前雖然我也有利用plotly玩過(guò),但感覺(jué)還是沒(méi)有進(jìn)到里面的細(xì)節(jié)。我會(huì)再用一篇文章詳細(xì)講述一下,敬請(qǐng)期待。</p>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容