項目介紹:
本數(shù)據(jù)來源于阿里巴巴天池平臺。該數(shù)據(jù)提供口碑商店信息,從2015年1月7日到2016年3月10日(2015.12.12除外)。本文對該數(shù)據(jù)進(jìn)行分析,旨在了解受消費(fèi)者歡迎的商鋪以及商品種類。
數(shù)據(jù)鏈接:https://pan.baidu.com/s/1J8Q0eCD73wCL3WnLXncXag
提取碼:9w0z
本文分析的主要框架
1.整體數(shù)據(jù)觀察
2.城市角度分析(探究城市分布、消費(fèi)力度、主要商品類目)
3.商品角度分析(銷售金額Top商品,探究最優(yōu)價值商品)
4.shop角度分析(探究平均付款金額與評分、級別以及評論數(shù)量之間的關(guān)系)
5.結(jié)論
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus']=False #用來正常顯示負(fù)號
1.數(shù)據(jù)觀察
columns = ['shop_id','city_name','location_id','per_pay','score','comment_cnt','shop_level','cate_1_name','cate_2_name','cate_3_name']
df= pd.read_table(r'F:\data\shop_data\shop_info.txt',names=columns, sep=',')
df.head(5)

df.info()

原始數(shù)據(jù)中共有10個字段,每個字段共2000行,字段解釋如下:
shop_id:商店ID
city_name:城市
location_id:位置ID(鄰居商店具有相同的位置ID)
per_pay:平均付款金額(數(shù)字越大表示平均付款金額越高)
score:用戶給出的商店得分(數(shù)字越大表示得分越高)
comment_cnt:用戶評論數(shù)量
shop_level:由口碑給出的商店等級(數(shù)字越大表示更高等級)
cate_1_name:一級類別名稱(中文)
cate_2_name:二級類別名稱(中文)
cate_3_name:三級類別名稱(中文)
(df.shape[0]-df.count(axis=0))/df.shape[0]

由上看出score、comment_cnt、cate_3_name 的數(shù)據(jù)是有欠缺的
score 、comment_cnt將近欠缺了14.6% 的數(shù)據(jù)
cate_3_name 將近欠缺了29%的數(shù)據(jù)
2.城市角度分析
city_grouped= df.groupby('city_name')
city_grouped['shop_id'].count().sort_values(ascending=False).head(10).plot.pie()

由上圖可以看出,口碑上的商店主要是分布在上海、杭州、北京、廣州、南京、武漢、深圳等城市。
df[df.city_name=='上海'].cate_1_name.value_counts().plot.bar()

我們再專門對商店數(shù)量最多的上海單獨分析,發(fā)現(xiàn)這些商店多以美食為主。
city_grouped['per_pay'].mean().sort_values(ascending=False).head(10).plot.pie()

由此圖發(fā)現(xiàn),平均付款金額較大的并非一線城市,而是德陽、張家口等三四線城市。
3.商品角度分析
cate1_grouped= df.groupby('cate_1_name')
cate1_grouped['comment_cnt'].sum().sort_values(ascending=False).head(1)

在一類商品中,獲評論數(shù)量最多的是美食類,可見美食類在口碑上最受關(guān)注。
a=df[df.cate_1_name=='美食']
a.head()

a.groupby('cate_2_name')['comment_cnt'].sum().sort_values(ascending=False).head()

美食類里面又以快餐類目熱銷,這也正與口碑為外賣平臺相符。
4.shop角度分析
score_grouped=df.groupby('score')
score_grouped['per_pay'].mean()

平均付款金額最高的shop評分主要是1分,其次是評分為2/3,或許我們可以猜測這些商鋪評分低的其中一個原因是價格偏高。
shop_level_grouped=df.groupby('shop_level')
shop_level_grouped['per_pay'].mean()

由此看出,口碑上level高的shop平均付款金額要更高一點。
comment_cnt_grouped=df.groupby('comment_cnt')
comment_cnt_grouped['per_pay'].mean()

comment_cnt_grouped['per_pay'].mean().plot.bar()

該直方圖顯示評論數(shù)量與平均消費(fèi)金額沒有太大關(guān)系。
5.結(jié)論以及建議
1.從城市角度看:
- 結(jié)論匯總:口碑上的商店主要是分布在上海、杭州、北京、廣州等一線城市,且多以美食類為主
2.從商品角度看:
- 結(jié)論匯總:在口碑上,美食類快餐最受用戶關(guān)注
3.從shop角度看:
- 結(jié)論匯總:價格偏高可能會引起用戶不滿,從而導(dǎo)致評分很低;由口碑給出的商店等級越高,其平均消費(fèi)金額也會相對較高一點