口碑商鋪分析

項目介紹:

本數(shù)據(jù)來源于阿里巴巴天池平臺。該數(shù)據(jù)提供口碑商店信息,從2015年1月7日到2016年3月10日(2015.12.12除外)。本文對該數(shù)據(jù)進(jìn)行分析,旨在了解受消費(fèi)者歡迎的商鋪以及商品種類。
數(shù)據(jù)鏈接:https://pan.baidu.com/s/1J8Q0eCD73wCL3WnLXncXag
提取碼:9w0z

本文分析的主要框架

1.整體數(shù)據(jù)觀察
2.城市角度分析(探究城市分布、消費(fèi)力度、主要商品類目)
3.商品角度分析(銷售金額Top商品,探究最優(yōu)價值商品)
4.shop角度分析(探究平均付款金額與評分、級別以及評論數(shù)量之間的關(guān)系)
5.結(jié)論

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus']=False #用來正常顯示負(fù)號

1.數(shù)據(jù)觀察

columns = ['shop_id','city_name','location_id','per_pay','score','comment_cnt','shop_level','cate_1_name','cate_2_name','cate_3_name']
df= pd.read_table(r'F:\data\shop_data\shop_info.txt',names=columns, sep=',')
df.head(5)
image.png
df.info()
image.png

原始數(shù)據(jù)中共有10個字段,每個字段共2000行,字段解釋如下:
shop_id:商店ID
city_name:城市
location_id:位置ID(鄰居商店具有相同的位置ID)
per_pay:平均付款金額(數(shù)字越大表示平均付款金額越高)
score:用戶給出的商店得分(數(shù)字越大表示得分越高)
comment_cnt:用戶評論數(shù)量
shop_level:由口碑給出的商店等級(數(shù)字越大表示更高等級)
cate_1_name:一級類別名稱(中文)
cate_2_name:二級類別名稱(中文)
cate_3_name:三級類別名稱(中文)

(df.shape[0]-df.count(axis=0))/df.shape[0]
image.png

由上看出score、comment_cnt、cate_3_name 的數(shù)據(jù)是有欠缺的
score 、comment_cnt將近欠缺了14.6% 的數(shù)據(jù)
cate_3_name 將近欠缺了29%的數(shù)據(jù)

2.城市角度分析

city_grouped= df.groupby('city_name')
city_grouped['shop_id'].count().sort_values(ascending=False).head(10).plot.pie()
image.png

由上圖可以看出,口碑上的商店主要是分布在上海、杭州、北京、廣州、南京、武漢、深圳等城市。

df[df.city_name=='上海'].cate_1_name.value_counts().plot.bar()
image.png

我們再專門對商店數(shù)量最多的上海單獨分析,發(fā)現(xiàn)這些商店多以美食為主。

city_grouped['per_pay'].mean().sort_values(ascending=False).head(10).plot.pie()
image.png

由此圖發(fā)現(xiàn),平均付款金額較大的并非一線城市,而是德陽、張家口等三四線城市。

3.商品角度分析

cate1_grouped= df.groupby('cate_1_name')
cate1_grouped['comment_cnt'].sum().sort_values(ascending=False).head(1)
image.png

在一類商品中,獲評論數(shù)量最多的是美食類,可見美食類在口碑上最受關(guān)注。

a=df[df.cate_1_name=='美食']
a.head()
image.png
a.groupby('cate_2_name')['comment_cnt'].sum().sort_values(ascending=False).head()
image.png

美食類里面又以快餐類目熱銷,這也正與口碑為外賣平臺相符。

4.shop角度分析

score_grouped=df.groupby('score')
score_grouped['per_pay'].mean()
image.png

平均付款金額最高的shop評分主要是1分,其次是評分為2/3,或許我們可以猜測這些商鋪評分低的其中一個原因是價格偏高。

shop_level_grouped=df.groupby('shop_level')
shop_level_grouped['per_pay'].mean()
image.png

由此看出,口碑上level高的shop平均付款金額要更高一點。

comment_cnt_grouped=df.groupby('comment_cnt')
comment_cnt_grouped['per_pay'].mean()
image.png
comment_cnt_grouped['per_pay'].mean().plot.bar()
image.png

該直方圖顯示評論數(shù)量與平均消費(fèi)金額沒有太大關(guān)系。

5.結(jié)論以及建議

1.從城市角度看:

  • 結(jié)論匯總:口碑上的商店主要是分布在上海、杭州、北京、廣州等一線城市,且多以美食類為主

2.從商品角度看:

  • 結(jié)論匯總:在口碑上,美食類快餐最受用戶關(guān)注

3.從shop角度看:

  • 結(jié)論匯總:價格偏高可能會引起用戶不滿,從而導(dǎo)致評分很低;由口碑給出的商店等級越高,其平均消費(fèi)金額也會相對較高一點
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容