? ? ? ? 哪里有公共自行車站點(diǎn)可以騎嗎?他們什么時(shí)候騎?他們走了多遠(yuǎn)?騎了多久?哪些路線是熱門騎行路線?哪些租賃點(diǎn)最受歡迎?周一到周末的使用量會(huì)有怎么樣具體的變化呢?天氣變化對(duì)騎行量是否會(huì)造成影響?自行車的使用能否得到用戶行為習(xí)慣?我們已經(jīng)聽到了所有這些問題和反饋信息,根據(jù)我們用戶的騎行數(shù)據(jù),來幫助我們發(fā)現(xiàn)這些問題的答案和更多的信息。對(duì)提供的數(shù)據(jù)進(jìn)行分析,開發(fā),可視化和其他任何預(yù)測。感謝藍(lán)鯨大神的幫助,接下來說下具體的實(shí)現(xiàn)方式。以下的數(shù)據(jù)有一定偏差,這里只討論分析過程。
三:分析和處理數(shù)據(jù)
我們已2015年的數(shù)據(jù)為例,按月來存儲(chǔ)數(shù)據(jù)

? ? ? ?公共自行車用戶的騎行數(shù)據(jù)是按月存儲(chǔ)的,因此我們需要逐月讀取并將各個(gè)月份的數(shù)據(jù)進(jìn)行拼接。
生成一張總表。


2015年自行車騎行數(shù)據(jù)共包含8516060次,16列數(shù)據(jù)。其中每一行數(shù)據(jù)都代表一次用戶的租借和騎行記錄。稍微初看的話,你會(huì)發(fā)現(xiàn)某些異常值出生年是6510,性別是NaN,這是由于本身的身份證數(shù)據(jù)就是錯(cuò)的.

出生年錯(cuò)的原因是給我們的身份證信息就是錯(cuò)的,還有就是出生年帶未知字母的,比如X,
性別是身份證號(hào)碼里面的第17位,由于錄入的時(shí)候身份證少于17位,也就是空了。
我們先處理這些空值,至于年齡問題,后面在對(duì)錯(cuò)的信息處理吧,可以取平均值,或是剔除這些數(shù)據(jù),還有就是把錯(cuò)的數(shù)據(jù)篩選出來。
驚人的852萬次騎行

我們首先對(duì)2015年公共自行車站點(diǎn)的數(shù)據(jù)中的幾個(gè)關(guān)鍵指標(biāo)進(jìn)行統(tǒng)計(jì),在一年中共有500個(gè)租賃點(diǎn),9136輛自行車被使用。自行車的使用次數(shù)更是高達(dá)852萬次,平均算下來每輛自行車每天被租借2.55次??梢娙藗儗?duì)金華公共自行車的熱情。而每次的騎行時(shí)間平均為17.75分鐘。
統(tǒng)計(jì)結(jié)果:


統(tǒng)計(jì)每個(gè)月的租還數(shù)量

2015年各月份統(tǒng)計(jì)數(shù)據(jù)
2015年的公共自行車的總體使用量整體趨勢由低到高,2月份自行車的使用量最低,接下來一季度使用量逐月增長,到了6月份的時(shí)候,使用量降低,然后7月使用量又增加。一直到10月份出現(xiàn)峰值,11月使用量開始下降。這可能是由于季節(jié)和氣溫因素導(dǎo)致的。我們下面按季度對(duì)騎行數(shù)據(jù)進(jìn)行匯總并進(jìn)行對(duì)比。
計(jì)算方式:

2015年6月份的天氣(雨天居多),導(dǎo)致騎行量下降

我們下面按季度對(duì)騎行數(shù)據(jù)進(jìn)行匯總并進(jìn)行對(duì)比。

計(jì)算方式:

從2015年四個(gè)季度的數(shù)據(jù)來看,用戶對(duì)公共自行車的使用受季節(jié)因素的影響,第一季度氣溫最低,公共自行車的使用量也較低。第二季度第三季度為夏秋交替,使用量最高。
哪些人使用公共自行車
我們很好奇852萬次騎行這個(gè)龐大的數(shù)據(jù)后面是哪些人在使用公共自行車。由于獲得的數(shù)據(jù)中用戶性別的數(shù)據(jù)有些錯(cuò)誤,我們進(jìn)行篩選。
首先,我們計(jì)算性別比例,其中男性50.75%,女性44.49%,還有4.8%就是未知性別(這些數(shù)據(jù)就是錯(cuò)的)。

以下是計(jì)算用戶性別占比和繪制餅圖的代碼

哪個(gè)年齡段使用公共自行車的人最多

我們將公共自行車的用戶年齡分為四組,-7975-18歲為少年組(這里有返老還童),18-30歲為青年組,30-50歲為中年組,50-75歲以上為老年組,還有50-2015(這里千年老妖)其中少年組的租借和騎行次數(shù)最少,中年組的租借和騎行次數(shù)最高,其次為青年組。50歲以上的老年組也有相當(dāng)數(shù)量的記錄。少年組的數(shù)據(jù)有一定的誤差。
騎行組計(jì)算方式:

都有哪些卡數(shù)據(jù)(這里應(yīng)該有公交卡,市民卡,銀行卡,異形卡等等)在使用

由于原先數(shù)據(jù)渡沒有區(qū)別開來,這里就講計(jì)算方式了。
計(jì)算方式:

哪個(gè)時(shí)間段的騎行量最大
在852萬次騎行的數(shù)據(jù)背后,是否存在一些規(guī)律?我們選擇了10月(秋季)的數(shù)據(jù)對(duì)用戶使用公共自行車的行為進(jìn)行了統(tǒng)計(jì)和分析,這里既包括使用公共自行車的時(shí)間,也包括騎行速度,熱門租賃站點(diǎn)和騎行線路。
24小時(shí)騎行分布圖

公共自行車的使用者大部分為城市居民,少部分為游客。在一天中的上午7點(diǎn)—9點(diǎn)和下午的4點(diǎn)—6點(diǎn)是公共自行車的使用高峰。這兩個(gè)時(shí)間正好是上下班的高峰時(shí)間。除此之外中午12點(diǎn)—下午4點(diǎn)也有較高的使用量。
計(jì)算方式:


用戶的騎行時(shí)間和速度是怎樣
? ? ? ? 在騎行時(shí)間方面,按照公共自行車的騎行時(shí)間有不同的限制,每次免費(fèi)的騎行的限制時(shí)間為1小時(shí),超過1小時(shí)每增加1元。公共自行車鼓勵(lì)用戶短途使用并且在接近限制時(shí)間時(shí)重新租賃新的自行車,避免產(chǎn)生超時(shí)費(fèi)用,并且提高自行車的周轉(zhuǎn)率。我們對(duì)10月份用戶的騎行時(shí)間進(jìn)行處理和分組,通過下面的圖表可以看出大部分用戶的使用時(shí)間為10-20分,5分到10分的騎行時(shí)間也比較多。

平均騎行速度4.54公里/小時(shí),(這部分結(jié)果算算有出入)有空再仔細(xì)算算。
計(jì)算方式與過程

結(jié)束語
我們使用科學(xué)計(jì)算方式對(duì)市區(qū)公共自行車系統(tǒng)852萬次騎行數(shù)據(jù)的簡單分析,可見用戶對(duì)公共自行車系統(tǒng)的熱愛和使用頻率的同時(shí),也學(xué)習(xí)到很多用戶騎行的信息。使用公共自行車的用戶以的中年婦女為主,在每天的早晨的8點(diǎn)和傍晚6點(diǎn)是公共自行車的使用高峰。由于對(duì)公共自行車超時(shí)單獨(dú)收取費(fèi)用,用戶的騎行時(shí)間多數(shù)在20分鐘以內(nèi)。夏秋兩季租賃量最大,平均騎行速度為4.54公里/小時(shí)。
后續(xù)問題
1:季節(jié)性和氣溫對(duì)公共自行車使用的影響?
2:公共自行車對(duì)節(jié)假日出行的影響?
3:用戶的年齡與騎行速度是否有關(guān)聯(lián)?
4:用戶在每周的騎行趨勢是什么樣的?工作日和休息日公共自行車的使用率是否不同?
5:一輛自行車在一天中的路徑是什么樣的?
6:根據(jù)最受歡迎的租賃點(diǎn)來判斷城市熱點(diǎn)位置?
7:根據(jù)騎行路線能否對(duì)用戶行為進(jìn)行分析?