項(xiàng)目背景
當(dāng)代社會(huì)的發(fā)展理念里流行一種模式叫做“共享經(jīng)濟(jì)”,提起這個(gè)詞,大家肯定會(huì)立刻聯(lián)想到共享單車吧。曾幾何時(shí),當(dāng)你出門在外的時(shí)候,經(jīng)常會(huì)看到路邊齊刷刷停了一排五顏六色的共享單車。而在所有的共享單車?yán)?,我?duì)摩拜一直以來都有一種莫名的好感,因?yàn)樵谒踉谏虾_\(yùn)營(yíng)的時(shí)候我們就因?yàn)闄C(jī)緣相遇相識(shí)了,而接著在我出差日本三個(gè)月回來之后它已經(jīng)無處不在了。當(dāng)我回國(guó)的時(shí)候正好是2016年8月,摩拜也恰巧在這個(gè)月收獲了B輪融資,我很好奇這段時(shí)間它在上海這座城市是如何收獲人們的芳心,得到迅速發(fā)展的。為此,需要獲取到相關(guān)的摩拜使用數(shù)據(jù)來展開數(shù)據(jù)分析。幸運(yùn)的是,在Udacity報(bào)名學(xué)習(xí)了數(shù)據(jù)分析(進(jìn)階)納米學(xué)位課程,其中最后一個(gè)項(xiàng)目實(shí)踐中就包含了來源于上海SODA比賽的摩拜樣本數(shù)據(jù),下面就開始用摩拜數(shù)據(jù)講故事~
項(xiàng)目簡(jiǎn)介
本項(xiàng)目基于上海城區(qū)2016年8月隨機(jī)抽樣的百萬條摩拜單車使用數(shù)據(jù),利用Tableau工具進(jìn)行探索可視化分析,從中發(fā)現(xiàn)一些有趣的現(xiàn)象或趨勢(shì)。
數(shù)據(jù)來源和數(shù)據(jù)集
本項(xiàng)目使用的數(shù)據(jù)集來源于上海SODA比賽樣本數(shù)據(jù),該數(shù)據(jù)集為摩拜提供的上海城區(qū)2016年8月隨機(jī)抽樣百萬條用戶使用數(shù)據(jù),包含以下字段:起點(diǎn)經(jīng)緯度、終點(diǎn)經(jīng)緯度、開始時(shí)間、結(jié)束時(shí)間、用戶ID、車輛ID、交易編號(hào)。
目的
主要希望透過摩拜使用數(shù)據(jù),發(fā)現(xiàn)用戶使用規(guī)律,從而了解摩拜單車得以快速發(fā)展的原因,進(jìn)一步思考還可以做些什么。
針對(duì)摩拜使用回答以下幾個(gè)問題:
1. 訂單量、單車數(shù)和用戶數(shù)的日變化?24小時(shí)訂單量變化?
2. 騎行起點(diǎn)的時(shí)空分布?
3. 用戶(不活躍用戶、活躍用戶、粘性用戶)分布概況?
4. 車輛(新單車、老單車、超級(jí)單車)分布概況?
5. 騎行距離分布?
6. 騎行時(shí)間分布?
技能工具
本項(xiàng)目使用的工具以Tableau為主,Python為輔。Tableau用于可視化分析和故事呈現(xiàn),Python用于清洗處理經(jīng)緯度數(shù)據(jù)以及計(jì)算額外有效字段等。
可視化分析
訂單量、單車數(shù)和用戶數(shù)的日變化?24小時(shí)訂單量變化?

分析思路:首先從時(shí)間維度入手,觀察摩拜單車騎行整體概況。由于感興趣的時(shí)間分層有天、周、工作日/周末、小時(shí)等,所以依次查看了對(duì)應(yīng)時(shí)間的訂單量。其中周這一層級(jí)比較特殊,因?yàn)閷?月份按周劃分以后,并不能保證每一周都有完整的7天,所以對(duì)比周訂單量不太合適,因此在可視化展示中放棄了該維度。
在展示日變化的時(shí)候,我將訂單量、單車數(shù)、用戶數(shù)放在一起橫向?qū)Ρ确治?,并繪制了趨勢(shì)線,發(fā)現(xiàn)三者均呈快速增長(zhǎng)趨勢(shì),不過從增速看,用戶數(shù)增長(zhǎng)相對(duì)慢于訂單量和單車數(shù)。換句話說,騎行訂單量的快速增長(zhǎng)有一部分是老用戶貢獻(xiàn)的。
下一步,我將工作日/周末和24h放在一起縱橫對(duì)比分析,訂單量用熱力圖展示(注:這里考慮對(duì)紅綠色弱視群體的友好,特意使用了藍(lán)橙色調(diào)色板),可以發(fā)現(xiàn)工作日上下班高峰期騎行訂單量激增,早高峰在7~8點(diǎn),晚高峰在17~19點(diǎn)。特別注意到一點(diǎn),星期三的18點(diǎn)騎行訂單量最多,說明大家這一天都不傾向于加班,而是早早下班。周末訂單量沒有出現(xiàn)早高峰,可能是因?yàn)榇蠹业墓?jié)假日作息規(guī)律不一致,因此出行時(shí)間不一致,不過到了晚上18~19點(diǎn)訂單量卻多了起來,也許這時(shí)候有些人準(zhǔn)備回家吃飯,也有些人準(zhǔn)備出門約會(huì)聚餐……感興趣的童鞋其實(shí)可以繼續(xù)探索下這時(shí)候的人們都騎車去哪些地方了。遺憾的是,我沒能找到詳細(xì)街道地圖數(shù)據(jù)文件,以后有時(shí)間再作分析。
總而言之,2016年8月摩拜單車在上海進(jìn)入快速發(fā)展期,訂單量、單車數(shù)、用戶數(shù)均快速增長(zhǎng)。其次,摩拜使用伴隨著非常明顯的工作日上下班高峰,說明上班族成為共享單車的重要用戶群體之一。
騎行起點(diǎn)的時(shí)空分布?

分析思路:根據(jù)起點(diǎn)經(jīng)緯度可以結(jié)合時(shí)間維度分析騎行起點(diǎn)的時(shí)空分布,為了能在地圖上顯示上海市各行政區(qū)域,我從網(wǎng)上找了上海市市轄區(qū)的空間文件[1],并根據(jù)原始數(shù)據(jù)中的起點(diǎn)經(jīng)緯度通過API得到了地區(qū)名稱和地區(qū)編碼[2],通過連接這幾個(gè)文件,可以在可視化中看到整個(gè)月騎行起點(diǎn)的空間分布,然后分別結(jié)合天、小時(shí)維度,可以用動(dòng)畫播放騎行起點(diǎn)隨時(shí)間變化的動(dòng)態(tài)空間分布。
從整個(gè)月的騎行地圖上可以看到,主要集中在市區(qū),楊浦區(qū)最多。原因可能是這里有五角場(chǎng)大學(xué)城,也可能是因?yàn)檫@里新投放的單車數(shù)多。要驗(yàn)證前者需要有詳細(xì)街道地圖,前面已解釋過,所以這里沒有作進(jìn)一步探討。而要驗(yàn)證后者我后面會(huì)再分析車輛分布概況。
通過日訂單和24h訂單地圖的動(dòng)態(tài)播放,可以發(fā)現(xiàn)我們?cè)谇懊娣治鰰r(shí)相同的趨勢(shì),即訂單量逐日增多,上下班高峰期訂單量增多。
整體來看,摩拜走的是“以市區(qū)為中心”的路線,尤其在幾個(gè)老城區(qū)非常受歡迎。在一定程度上,其實(shí)摩拜訂單量可以反映“客流量”, 如今“流量”一詞在互聯(lián)網(wǎng)行業(yè)大行其道,流量大的地方商機(jī)自然也大,比如店鋪選址、廣告宣傳等等。
用戶(不活躍用戶、活躍用戶、粘性用戶)分布概況?

分析思路:這里的用戶屬性我想到的是按整個(gè)月內(nèi)同一個(gè)用戶ID的騎車次數(shù)來劃分:
a. 不活躍用戶(騎車1次)
b. 活躍用戶(騎車2~10次)
c. 粘性用戶(騎車>10次)
用戶分組以后,我想知道這個(gè)月內(nèi)不同用戶每日使用摩拜單車的情況,于是繪制了面積圖,發(fā)現(xiàn)活躍用戶(騎車2~10次)在整個(gè)月中對(duì)摩拜發(fā)展的貢獻(xiàn)最大,其次是粘性用戶(騎車>10次),最后是不活躍用戶(騎車1次)。
此外,我還想知道這幾類用戶的地區(qū)分布,于是使用了小多組圖,發(fā)現(xiàn)楊浦區(qū)周圍的活躍用戶貢獻(xiàn)最多,而奉賢區(qū)沒有不活躍用戶,可能是由于奉賢區(qū)本身訂單量很少的緣故。
一句話總結(jié):活躍用戶作為整個(gè)月促進(jìn)摩拜發(fā)展的主力軍,尤其是楊浦區(qū)周圍的活躍用戶。這里需要說明的是,由于原始數(shù)據(jù)中有關(guān)用戶信息的字段只有用戶ID,所以只是簡(jiǎn)單地按騎車次數(shù)來做用戶劃分,分析結(jié)論存在一定的局限性。以后有機(jī)會(huì)的話可以搜集更多關(guān)于用戶的字段來建立有趣的用戶畫像。
車輛(新單車、老單車、超級(jí)單車)分布概況?

分析思路:車輛屬性我想到的是按整個(gè)月內(nèi)同一個(gè)車輛ID被騎的次數(shù)劃分:
a. 新單車(被騎1次)
b. 老單車(被騎2~10次)
c. 超級(jí)單車(被騎>10次)
車輛分組以后,和用戶分組類似,我想知道這個(gè)月被騎的摩拜單車是新車多還是舊車多,以及各地區(qū)使用新舊摩拜單車的分布,于是我同樣繪制了面積圖和小多組圖,發(fā)現(xiàn)這個(gè)月里有大量新單車被投放使用,其次是老單車,最后是我劃分出的一類特殊單車,我定義為“超級(jí)單車”,就是被騎次數(shù)超過了10次的單車。
從空間分布圖上,發(fā)現(xiàn)楊浦區(qū)的新單車投放被使用的最多,而“超級(jí)單車”在哪里呢?這位“元老”在徐匯區(qū)!
這個(gè)結(jié)果反映出:新單車的大量投放顯著增加了摩拜單車的使用。這里同樣需要說明的是,由于原始數(shù)據(jù)中有關(guān)車輛信息的字段只有車輛ID,按被騎次數(shù)劃分的做法并不太嚴(yán)謹(jǐn),被騎次數(shù)只有1次的不一定都是剛投放的新單車,也有可能是這個(gè)月剛被騎了1次就成了故障車,再也沒有被“寵幸”過,所以分析結(jié)論存在一定的局限性。
騎行距離分布?

分析思路:根據(jù)原始數(shù)據(jù)中的起點(diǎn)和終點(diǎn)經(jīng)緯度,我利用經(jīng)緯度距離公式計(jì)算了起終點(diǎn)之間的距離,并按距離長(zhǎng)短進(jìn)行以下分組:
a. <1km
b. 1~3km
c. 3~10km
d. 10~50km
e. >50km
分組以后,我先總體計(jì)算了各組訂單量占比,繪制了橫向條形圖,發(fā)現(xiàn)最多的是1~3km,其次是<1km,驗(yàn)證了共享單車發(fā)明的初衷“解決最后一公里”。接著我篩選出距離<3km的訂單想用填充氣泡圖比較下起點(diǎn)分布地區(qū),發(fā)現(xiàn)仍然是以楊浦區(qū)為首的幾個(gè)老城區(qū)分布最多。
下面按距離分組分別查看日訂單量和24h訂單量情況,依然發(fā)現(xiàn)人們的需求都集中于解決3km以內(nèi)的路程問題。
這個(gè)結(jié)果不禁讓人反思,在沒有共享單車之前,人們對(duì)于3km以內(nèi)的路程一般有以下幾種選擇:公交+步行、地鐵+步行、純步行等,這幾種方式無疑會(huì)耗費(fèi)較多的時(shí)間成本,而在有了共享單車以后,可以明顯減少等待公共交通和緩慢步行的時(shí)間,讓人們能在有限的時(shí)間里到達(dá)更多的地方完成更多的事。因此,摩拜之所以能迅速崛起,很大程度上是因?yàn)樗?b>為人們贏得了更多的時(shí)間,而時(shí)間是無法用價(jià)值來衡量的。
再次需要說明的是,這里為了便于分析,騎行距離用起點(diǎn)和終點(diǎn)之間的直線距離來近似的做法并不嚴(yán)謹(jǐn),現(xiàn)實(shí)中繞行是十分普遍的。如果可以將單車在途中上報(bào)的多個(gè)位置經(jīng)緯度信息結(jié)合計(jì)算,應(yīng)該可以得到相對(duì)精確的結(jié)果。
騎行時(shí)間分布?

分析思路:根據(jù)原始數(shù)據(jù)中的開始時(shí)間和結(jié)束時(shí)間,可以計(jì)算得到每個(gè)訂單的騎行時(shí)間(當(dāng)然也包括中途可能停留的時(shí)間),我想知道大部分人一般會(huì)騎行多長(zhǎng)時(shí)間,于是繪制了矩形樹圖,發(fā)現(xiàn)最普遍的騎行時(shí)間在5~10min之間,相應(yīng)的平均距離在1km附近。
那么各個(gè)轄區(qū)的人們平均騎行時(shí)間和距離有沒有區(qū)別呢?我使用了符號(hào)地圖,從圓點(diǎn)的大小和顏色來看,各個(gè)轄區(qū)之間區(qū)別不大(除了奉賢區(qū)以外,由于奉賢區(qū)的訂單樣本數(shù)量只有10個(gè),因此結(jié)果不具有代表性)。
從騎行時(shí)間這個(gè)維度看,我們確實(shí)可以發(fā)現(xiàn)共享單車帶來的便利,5~10min過去可能在步行或等待公交車的時(shí)候一晃眼就過去了,但是現(xiàn)在卻可以騎著單車來到1km以外的“輻射圈”,生活和工作效率都得到了大幅提升,這些都是摩拜帶給人們的。反之,共享騎行的流動(dòng)性也會(huì)加快摩拜發(fā)展的步伐,在無形中為企業(yè)以低成本迅速推廣宣傳,流量雪球越滾越大。
總結(jié)
本項(xiàng)目基于上海市2016年8月百萬條摩拜使用數(shù)據(jù),分別從時(shí)間序列、空間分布、用戶、車輛、距離和騎行時(shí)間這幾個(gè)維度進(jìn)行探索可視化分析,從中發(fā)現(xiàn)了以下規(guī)律:
1、2016年8月摩拜在上海進(jìn)入快速發(fā)展期,訂單量、單車數(shù)、用戶數(shù)均快速增長(zhǎng)。
2、工作日上、下班高峰期騎行量激增,“星期三不加班”現(xiàn)象突出。
3、摩拜騎行主要集中于幾個(gè)老城區(qū),尤其是楊浦區(qū)。
4、活躍用戶作為促進(jìn)摩拜發(fā)展的主力軍,主要分布于楊浦區(qū)及周邊。
5、新單車的大量投放促進(jìn)了摩拜的推廣使用。
6、集中于解決3km以內(nèi)的路程問題。
7、最普遍的騎行時(shí)間在5~10min,相應(yīng)的平均距離在1km附近。
反思
由于各種原因,本項(xiàng)目進(jìn)行的維度分析是十分有限的。其實(shí)我相信“一百個(gè)人眼中有一百個(gè)哈姆雷特”,身處不同行業(yè)的人看待摩拜共享大數(shù)據(jù)的角度和眼界也是各不相同的。比如,
1. 政府從城市發(fā)展的角度看,“共享騎行改變城市”,具體來說:
a. 分析就業(yè)熱力圖和學(xué)校熱力圖,探究就業(yè)圈和求學(xué)圈范圍的變化
b. 結(jié)合騎行熱力圖,覆蓋公共交通盲點(diǎn)區(qū)域
2. 企業(yè)開疆拓土做市場(chǎng)調(diào)研和推廣:
a. 發(fā)現(xiàn)潛在熱點(diǎn)區(qū)域開拓商機(jī)
b. 分析用戶畫像和出行特征,針對(duì)目標(biāo)用戶展開精細(xì)化運(yùn)營(yíng)
3. 旅游管理部門開展新工作:
尋找周末和節(jié)假日熱門騎行旅游路線,增設(shè)休息區(qū)和服務(wù)設(shè)施
資源
[1]?http://datav.aliyun.com/static/tools/atlas
[2]?http://gc.ditu.aliyun.com/regeocoding?l=lat,log&type=010