轉(zhuǎn)載請在文章起始處注明出處,謝謝。
數(shù)據(jù)來源:kaggle提供的一份2011-2012的共享單車的數(shù)據(jù)

datetime : 日期
season : 季節(jié),1—4分別代表春夏秋冬
holiday : 是否是假期,0代表否,1代表是(注意,假期區(qū)別于周末,類似于節(jié)假日,如圣誕節(jié))
workingday: 是否是工作日,0代表否,1代表是
weather : 天氣情況,可以理解為從1—4分別代表天氣越來越惡劣的情況
temp : 溫度
atemp : 體感溫度
humidity : 濕度
windspeed : 風(fēng)速情況
casual : 非注冊用戶數(shù)
registered: 注冊用戶數(shù)
count : 總用戶數(shù)
先觀測下數(shù)據(jù)的類型

數(shù)據(jù)沒有缺失,datetime是一個文本格式,需要轉(zhuǎn)換下。
分析思路:圍繞各項因素對租賃總數(shù)的影響作分析,劃分為三個階段:按時間的維度、按環(huán)境天氣等外在因素,最后再分析不同用戶之間的關(guān)系。

清洗后的數(shù)據(jù):

計算相關(guān)系數(shù),這里只比較與count租賃總數(shù)的相關(guān)性,所以我們提取出計算后count一列。

根據(jù)計算的相關(guān)系數(shù)可以發(fā)現(xiàn),溫度和體感溫度對租賃總數(shù)的影響較大且系數(shù)接近呈正相關(guān),濕度對租賃總數(shù)的影響也很大但呈現(xiàn)的是負相關(guān)。此外季節(jié),天氣,風(fēng)速對租賃的總數(shù)也有影響,節(jié)假日和工作日的影響最小。
首先我們先根據(jù)時間的維度來分析在不同特征下對租賃總數(shù)的影響


2012年的共享單車總用戶數(shù)和注冊用戶數(shù)都有明顯提升,未注冊用戶數(shù)略有增幅。
細化時間維度,按月和按各時間段:


觀察‘month’圖可知,一月份的租賃總數(shù)最少,隨著月份的增加,count逐漸增大,到6月份時到達頂峰, 隨后平穩(wěn)緩緩地遞減,到年末時租賃總數(shù)降至180左右,不妨接下來畫下季節(jié)與租賃總數(shù)的圖結(jié)合分析下。
觀察‘hour’圖可知,有兩個高峰期租賃的總數(shù)最多,分別是早上8點和下午的5點,這是上下班的高峰期, 凌晨的時間段最少,白天的時間段相對高峰期較少且相對平穩(wěn),可通過引入節(jié)假日holiday和星期weekday
兩個離散變量分別觀測下情況。
根據(jù)季節(jié)特征分別觀測下對租賃總數(shù)的影響,season :1—4分別代表春夏秋冬

與按月份分析的圖表相呼應(yīng),季節(jié)的特征表現(xiàn)在:春天也就是年初時租賃的總數(shù)最少,隨后隨著天氣變暖, 騎車的人數(shù)開始增多。夏天和秋天也就是6月到10月份租賃總數(shù)最多,隨著天氣變冷總數(shù)又慢慢下降。
承接‘hour’圖,對于引入的節(jié)假日和星期日我們先簡單做下分析
holiday : 區(qū)別于周末,0代表否,1代表是


接下來,我們通過引入holiday和weekday第三個變量來觀測下全天各時間段的租賃總數(shù)。


由圖一可知,上下班的高峰期非節(jié)假日的租賃總數(shù)是遠高于節(jié)假日的,而午后則是低于節(jié)假日,其余 時間段相差不大,與我們的認知相符,節(jié)假日大家在家休息,沒有上下班的高峰期,到了下午則約小伙伴出去玩,租賃總數(shù)上升。
由圖二可知,圖形的走勢與圖一類似,工作日的時候上下班高峰期租賃多,周末則是其余白天時間段租的比較多,符合人們的出行規(guī)律。
接下來,我們按照天氣狀況的維度具體分析下對租賃總數(shù)的影響,weather :從1—4分別代表天氣越來越惡劣的情況

可以看出,單車租賃數(shù)受天氣影響變化明顯,天氣越差,租的人越少,極端天氣4樣本數(shù)不足,單獨選取出來觀察下

極端天氣的情況在選取的整個樣本中只出現(xiàn)了一次,統(tǒng)計時間段為晚上6點,平均值根據(jù)之前分析的結(jié)果看,在周一上下班高峰的情況下,顯得虛高,不具備代表性。但總體根據(jù)走勢,租賃數(shù)應(yīng)該最低的,畢竟極端天氣騎單車出行不太安全。
溫度、濕度等因素在一開始我們已經(jīng)做了簡單的相關(guān)性分析,可直接選擇作圖建立線性回歸模型直觀地比較下。

接下來我們具體分析下溫度等各項指標對租賃總數(shù)的影響


根據(jù)溫度圖顯示,隨著溫度的升高,租賃數(shù)也在提高,在35℃左右時,到達最最大值,然后隨著溫度的繼續(xù) 升高租賃數(shù)加速下降。確實,天氣晴朗溫度適宜的話騎車的人會變多,而到40℃時人們都不愿出門。
濕度的圖表顯示,濕度在20左右時,租賃總數(shù)最多,隨著濕度的增大而減小。
風(fēng)速表中,租賃數(shù)在正常風(fēng)的影響下 變化不是很大,在風(fēng)速繼續(xù)變大的情況下出現(xiàn)波動,租賃數(shù)量減少,50后面又升高應(yīng)該是收到了異常值的干擾。風(fēng)速表顯示,只要不是特別大的狂風(fēng),人們還是愿意騎車的,至少表明了風(fēng)速不是主要的影響因素。
在文章的開頭,我們從較大的時間維度計算出了2011年與2012年未注冊用戶,注冊用戶和總用戶數(shù)的各項值,因而
針對不同的用戶群體我們可以繼續(xù)細化下時間維度,觀察下他們之間的微妙的變動情況,租賃總數(shù)count我們之前已
經(jīng)根據(jù)各項指標分析過了,所以接下來我們只分析未注冊用戶(casual)和注冊用戶(registered)之間的情況。



按月分組我們可以看出非注冊用戶租賃數(shù)呈現(xiàn)一個正態(tài)分布的圖形,結(jié)合注冊用戶再觀察,夏天時兩者需求都增高;按星期數(shù)我們發(fā)現(xiàn),注冊用戶在工作日的時候租得多,周末則租的少,反觀非注冊用戶則與之相反,結(jié)合實際可解釋其原因,注冊用戶工作日天數(shù)多,騎車次數(shù)也多,所以注冊會員比較方便,而非注冊用戶只需周末兩天出門騎或者偶爾租賃;按照時間段的圖,我們也能看出,注冊用戶上下班的點用的很多,非注冊用戶全天時間段都相對平緩,從而也能側(cè)面印證之前的結(jié)論。
總結(jié):
1、全年租賃總數(shù)較往年增長明顯,共享單車越來越為人們所接受,用戶群體正在擴大。
2、春天及年初時租賃人數(shù)最少,夏天秋天時最多,冬天相對較少。
3、工作日時,上下班高峰期租賃總數(shù)最多。周末及節(jié)假日時,午后時間段租賃人數(shù)最多。
4、溫度在35,濕度在20左右時,租賃總數(shù)最多,可加大投放量。風(fēng)速沒有明顯的影響。
5、注冊用戶在工作日的租賃數(shù)大于周末,非注冊用戶則相反。租賃時間點與3分析情況一致。