一、項目描述
互聯(lián)網(wǎng)行業(yè)的快速發(fā)展已經(jīng)在各個方面改善了人們的生活。大眾點評作為知名的獨立第三方消費點評網(wǎng)站,為用戶提供了商戶信息、消費點評及消費優(yōu)惠等信息服務(wù)。
我從大眾點評網(wǎng)http://www.dianping.com/search/category/1/45/g147,爬取了752家健身中心的店名、位置、點評條數(shù)、人均消費額、設(shè)施評分(均分)、環(huán)境評分(均分)、服務(wù)評分(均分)、點評的均分、有無團購、有無停車位等數(shù)據(jù)(還可以采集標(biāo)簽等數(shù)據(jù),這部分?jǐn)?shù)據(jù)可選,但有可能影響分析效果),采用數(shù)據(jù)挖掘中的分類、聚類、關(guān)聯(lián)或回歸等方法(算法),對如下的問題做深入分析:
- 1.探究影響健身房營業(yè)效果的因素,并以某家健身中心Fitplus運動加&Denny House為例,為其制定市場推廣策略。
- 2.某客戶住在中山公園附近,對設(shè)施、環(huán)境和服務(wù)要求很高,且希望建設(shè)中心能提供團購服務(wù),請為其推薦適合的健身中心。
二、數(shù)據(jù)分析工具
IBM SPSS Modeler、IBM SPSS Statistics
三、數(shù)據(jù)預(yù)處理
3.1 缺失值分析
通過觀察,原始數(shù)據(jù)的人均消費列和branch列存在空值比較多,考慮到branch(分店數(shù)量)不是主要研究因素,樣本數(shù)量充足,屬于完全隨機缺失的情況,因此可以過濾掉人均消費為空值的記錄。
同時,我們發(fā)現(xiàn)不同健身房人均消費數(shù)據(jù)的差距非常大,而且這些數(shù)據(jù)與其它影響因素沒有必然聯(lián)系。通過分析每家健身房里的用戶文字評論,我們發(fā)現(xiàn)有無私教會極大的影響人均消費額,而這項數(shù)據(jù)無法通過爬蟲獲取得到。因此為了使數(shù)據(jù)更具有代表性,同時考慮到我們分析的四個問題都是面向高端健身房,我們過濾了所有人均消費額1000元以下的記錄,最終的爬取結(jié)果如圖1所示。

3.2 人均消費離散化
為了簡化數(shù)據(jù)結(jié)構(gòu),使分析結(jié)果更加穩(wěn)定,需要將人均消費離散化,為了確定分割點,我做了描述統(tǒng)計并畫出箱線圖


最終以2000和4000為界限,把所有數(shù)據(jù)項分為“價格實惠”,“價格適中”,“價格昂貴”三類。離散的時候使用了內(nèi)置的if-else語句。
添加導(dǎo)出節(jié)點并命名為”Price”,編輯公式為:if 人均消費<2000 then "價格實惠" elseif 人均消費<4000 then "價格適中" else "價格高昂" endif。如圖所示:

3.3 評論條數(shù)離散化
由下圖可知,評論條數(shù)的離散程度較高,異常值較多,所以我們將所有數(shù)據(jù)分成4個區(qū)間:20/50/100,把所有數(shù)據(jù)分為“評論少”、“評論較少”、“評論較多”和“評論多”四類(這里沒有處理異常值,而是通過合理確定分割點來弱化異常值對分析結(jié)果的影響)。
添加導(dǎo)出節(jié)點并命名為” ReviewNum”,編輯公式為:if 評論條數(shù)<20 then "評論少" elseif 評論條數(shù)<50 then "評論較少" elseif 評論條數(shù)<100 then "評論較多" else "評論多" endif。


3.4 設(shè)施、環(huán)境、服務(wù)離散化
由下圖可知,這三項的分布差別不大,均以 7/8 為界,分別把所有記錄分為“一般”,“較好”,“好”三類。
添加三個導(dǎo)出節(jié)點,分別命名為 Facility,Environment 和 Service。編輯公式如下:
if 設(shè)施<7 then "設(shè)施一般" elseif 設(shè)施<8 then "設(shè)施較好" else "設(shè)施好" endif
if 環(huán)境<7 then "環(huán)境一般" elseif 環(huán)境<8 then "環(huán)境較好" else "環(huán)境好" endif
if 服務(wù)<7 then "服務(wù)一般" elseif 服務(wù)<8 then "服務(wù)較好" else "服務(wù)好" endif


3.5 商戶評分離散化
我們爬取到的數(shù)據(jù)是商戶的星級,根據(jù)各星級的分布情況,按照星級將評分分為“評分一般”、“評分較高”和“評分高”。
添加導(dǎo)出節(jié)點并命名為” Score”,編輯公式為:if member(rankstars,['五星商戶','準(zhǔn)五星商戶']) then "評分高" elseif member(rankstars,['四星商戶','準(zhǔn)四星商戶']) then "評分較高" else "評分一般" endif。

3.6 數(shù)據(jù)預(yù)處理總結(jié)
我們總共添加了6個導(dǎo)出節(jié)點,數(shù)據(jù)預(yù)處理的流程如下:

預(yù)處理后的數(shù)據(jù)如下圖所示,我們得到了經(jīng)過離散的各項數(shù)據(jù)。

四、探究影響健身房營業(yè)效果的因素
健身房的營業(yè)效果可以從客流量和顧客的平均打分兩個方面來評估,而客流量與點評條數(shù)是基本成正比例的,因此我在本部分主要通過C5.0決策樹來分析其他影響因素對平均得分(Score)和點評條數(shù)(ReviewNum)的影響。
4.1 探究影響點評條數(shù)的因素
我把影響因素分為兩類:
(1)店家固有屬性:位置,Price,有無團購、有無促銷;
(2)用戶體驗:設(shè)施、服務(wù)、環(huán)境、點評分?jǐn)?shù)。
4.1.1 店家固有屬性
輸入:位置、Price,有無團購、有無促銷
目標(biāo):ReviewNum
決策樹模型:添加一個C5.0節(jié)點,生成了一個三層決策樹,其中影響最大的是所在位置,其次是價格,如下圖所示:


從上圖可以看出,在市中心繁華地段的健身房評論數(shù)較多,而偏遠郊區(qū)評論數(shù)較少。Fitplus運動加&Denny House位于浦東新區(qū),因此我們分析浦東新區(qū)的情況,其決策樹如下:

結(jié)論:Fitplus運動加&Denny House可以多提供一些特色團購服務(wù),價格可以適中或高昂,走高端路線。
4.1.2 用戶體驗
輸入:Facility、Sevice、Environment、Score
目標(biāo):ReviewNum
決策樹模型:按照上一節(jié)中提到的方法,這里生成了兩層決策樹。其中影響因素重要性最高的是點評分?jǐn)?shù),達到了61%,然后是設(shè)施。(點評分?jǐn)?shù)的重要性高于設(shè)施,存疑)如下圖所示:


結(jié)論:設(shè)施好和設(shè)施較好的健身房評論條數(shù)較多,而設(shè)施一般的健身房評論條數(shù)也不少,這說明人們對健身房設(shè)施的選擇大多集中在兩個極端,設(shè)施一般的健身房更面向大眾,而設(shè)施好的健身房受高端用戶青睞。對于Fitplus運動加&Denny House來說,有兩種選擇,或者提供較一般的健身設(shè)備提高針對普通用戶,或者提供好的設(shè)備主打高端市場。
4.1.3 整體分析
輸入:位置、Price、Facility、Score
目標(biāo):ReviewNum
決策樹模型:可見在所有因素中,位置是最重要的因素,然后是設(shè)施,最后是價格


結(jié)論:健身房需要評估商圈的位置和定位,這樣才能準(zhǔn)確把握并迎合消費者的心理,從而擁有更多的客戶。而對于Fitplus運動加&Denny House,可以提供較一般的健身設(shè)備提高針對普通用戶;或者提供好的設(shè)備主打高端市場。在價格方面,應(yīng)當(dāng)適中。
4.1.4 模型結(jié)構(gòu)

4.2 探究影響點評分?jǐn)?shù)的因素
與上一部分一樣,將影響因素分為店家固有屬性和用戶體驗。
4.2.1 店家固有屬性
輸入:位置、Price,有無團購、有無促銷
目標(biāo):Score
決策樹模型:生成了三層決策樹。影響因素最大的是有無特色團購,在有特色團購的商家中,評分高的店家占23.037%,而沒有特色團購商家的這個比例只有2.586%。次要的影響因素是位置,最后是價格,可以發(fā)現(xiàn)同種情況下價格實惠的健身房評分高的比例會更大。


結(jié)論:這個結(jié)論不難理解,當(dāng)有團購時,用戶可以獲得最大程度的優(yōu)惠,所以也會傾向于給更高的評分。同時,用戶也更喜歡價格實惠的健身房。Fitplus運動加&Denny House,可以提高團購的優(yōu)惠力度,適當(dāng)降低價格,提高用戶評分。
4.2.2 用戶體驗
輸入:Facility、Sevice、Environment、ReviewNum
目標(biāo):Score
決策樹模型:生成兩層決策樹模型,其中影響因素最大的是服務(wù),在服務(wù)好的健身房中,評分高的健身房比例高達71.875%,而服務(wù)較好和一般的健身房的這個比例都不到1%。其次是環(huán)境。


結(jié)論:在第二層決策樹中可以發(fā)現(xiàn),服務(wù)一般的健身房一般環(huán)境評分也較差,這說明這兩項評分有一定的關(guān)聯(lián)性。對于Fitplus運動加&Denny House來說,可以提高自己的服務(wù)質(zhì)量,并改善用戶健身環(huán)境,從而提高用戶評分。
4.2.3 整體分析
輸入:有無團購、位置、Sevice
目標(biāo):Score
決策樹模型:生成一層決策樹模型,服務(wù)的重要性占到100%,


結(jié)論:由決策樹可以看出,在所有影響點評分?jǐn)?shù)的因素中,服務(wù)是最重要的,顧客是上帝,提供最優(yōu)質(zhì)的服務(wù)才是商戶應(yīng)有的追求。
五、推薦合適的健身中心
為了能夠快速有效的為客戶推薦合適的健身中心,需要對健身中心進行聚類。在聚類之前,為了剔除強相關(guān)變量對結(jié)果的影響,需要先進行關(guān)聯(lián)分析,這里采用的是Apriori 算法。
5.1 Apriori算法關(guān)聯(lián)分析
我所做的關(guān)聯(lián)分析分別有以下幾組:
(1)店家固有屬性之間:位置、Price、有無團購、有無促銷;
(2)用戶體驗屬性之間:Facility、Sevice、Environment;
(3)Facility、Sevice、Environment、Price;
(4)Facility、Sevice、Environment、Score
這里,我設(shè)置最低條件支持度 10%,最小置信度 80%,最大前項數(shù) 5 項。
5.1.1 位置、Price、有無團購、有無促銷

分析:對于浦東新區(qū),有特色團購的支持度為16.938%,置信度為100%,而價格適中的支持度為11.401%,置信度為100%
結(jié)論:位于浦東新區(qū)的健身房大多數(shù)都有特色團購并且價格適中,這個不難理解,浦東新區(qū)年輕人較多,消費能力中等,也更喜歡使用團購這種比較新穎的購買方式。
5.1.2 Facility、Sevice、Environment

分析:從圖中可以看出,設(shè)施、服務(wù)與環(huán)境這三項打分往往是要高都高、要低都低,原因一方面是好的店家往往在這三方面都很注意,另一方面是由于用戶在這三方面的打分呈現(xiàn)出的關(guān)聯(lián)性。
結(jié)論:對于健身房來說,設(shè)施、環(huán)境喝服務(wù)三方面都需要注重,否則可能因為某一方面影響了用戶而導(dǎo)致得分都比較低。
5.1.3 Facility、Sevice、Environment、Price

分析:從圖中除了可以得到5.1.2中的結(jié)論之外,我們還可以看到,當(dāng)人均消費水平低的時候,往往服務(wù)和環(huán)境、設(shè)施也較差,而當(dāng)人均消費水平高的時候,服務(wù)和環(huán)境、設(shè)施一般會比較好。但是也可以注意到,人均消費水平一般的時候,也有很多健身房的設(shè)施、服務(wù)、環(huán)境不錯的。
結(jié)論:為客戶推薦健身房時,最好推薦價格一般或者價格高昂的健身房。
5.1.4 Facility、Sevice、Environment、Score

分析:從圖中看到,當(dāng)服務(wù)和環(huán)境、設(shè)施也較差,而當(dāng)人均消費水平高的時候,Score也較低;當(dāng)服務(wù)和環(huán)境、設(shè)施好的 時候,Score也高;當(dāng)服務(wù)和環(huán)境、設(shè)施一般的 時候,Score也一般。
結(jié)論:Score和設(shè)施、環(huán)境、服務(wù)之間有很強的關(guān)聯(lián)性
5.2 K-Means聚類
首先對預(yù)處理的參數(shù)進行篩選,考慮到用戶對健身房的要求,我們需要選取設(shè)施、環(huán)境和服務(wù)這三個參數(shù)。之所以沒有選擇健身房評分,是因為我們在前面的分析中看到健身房評分與設(shè)施、環(huán)境和服務(wù)兩個維度的數(shù)據(jù)有著很強的關(guān)聯(lián)性,另外還有有無團購這一屬性。除了這些,還需要有健身房所在的地區(qū)和健身房名稱,但均不作為算法的輸入?yún)?shù)
輸入?yún)?shù):有無特色團購、設(shè)施、服務(wù)以及環(huán)境(根據(jù)客戶對健身房的要求來定)、Price
聚類類別數(shù):3類(多次嘗試后)



分析:從結(jié)果中我們看出聚類的質(zhì)量還是比較好的,這三類中分別有79、115和113個健身中心。在聚類-1中,設(shè)施、服務(wù)和環(huán)境指標(biāo)都是很好的,屬于性價比高的健身房,聚類-2和聚類-3分別代表性價比一般的健身房和性價比低的健身房。
結(jié)論:很明顯,聚類-1就是用戶所希望的這一類健身房,為了在中山公園附近找到合適的健身中心,我們在這里添加了一個選擇節(jié)點用于篩選健身房,篩選條件為:region = "長寧區(qū)" and '$KM-K-Means' = "聚類-1"。最終得到的篩選結(jié)果如下:

考慮到用戶希望在中山公園附近,所以我們最終的推薦健身中心是中田健身工作室(中山公園店)。
六、總結(jié)
- 本次項目使用C5.0決策樹分析了影響用戶評分和評論條數(shù)的因素,并以健身中心Fitplus運動加&Denny House為例,為其制訂了市場推廣策略。
- 使用關(guān)聯(lián)分析分析這些因素的內(nèi)在關(guān)系。
- 使用聚類分析為用戶推薦合適的健身房。
這里的每個結(jié)果對商家和客戶都具有很重要的現(xiàn)實意義,其中蘊藏著巨大的商機。