想了解一下吃貨身上都有些什么特質??梢宰ト↑c評的會員數(shù)據(jù)進行分析。
一、URL分析
這個是全國的會員榜,TOP300的吃貨都在這里:
http://www.dianping.com/memberlist/0/0
分析一下URL,要找各城市的會員榜,memberlist后面跟的第一個數(shù)字即是城市ID,如南京是5,下面URL就南京的會員榜,分頁即可得到這個城市前300名的會員。
http://www.dianping.com/memberlist/5
從列表頁得到會員詳情頁的鏈接。
二、分析一下要抓取的會員信息

在列表頁,首先要獲到會員的URL,點評數(shù)、第一個點評、回應數(shù)和鮮花,這些應該是會員排名的重要數(shù)據(jù)。
在詳情頁,有比較多有意思的數(shù)據(jù)(隱私數(shù)據(jù)):
- 性別、地點
- 標簽(如 吃貨、購物狂、旅行等)
- 社區(qū)活躍數(shù)據(jù)
- 點評數(shù)、收藏數(shù)、簽到數(shù)、圖片數(shù),
- 貢獻值,等級
- 關注、粉絲、互動
- 個人信息和興趣相關數(shù)據(jù)
- 注冊時間,最后登錄時間
- 體型
- 生日、星座、戀愛狀況
- 畢業(yè)大學
- 愛好
- 喜歡的電影,書/作者
- 喜歡的菜肴/菜系/餐廳
我抓取的數(shù)據(jù)字段:
class FoodieItem(Item):
url = Field()
nickname = Field()
comment_num = Field()
comment_first = Field()
comment_response = Field()
flower = Field()
level = Field()
location = Field()
gender = Field()
rank = Field()
contribution = Field()
loc_check= Field() # 簽到
collect_num = Field() #收藏數(shù)
pic_num = Field()
note_num = Field()
reg_time = Field()
fans = Field()
interaction = Field()
tags = Field()
shops = Field() # 商戶數(shù)
shape = Field()
love_situation = Field() #戀愛狀況
birthday = Field()
occupation = Field()
college = Field()
hobby = Field()
foodtype = Field()
star_sign = Field() #星座
代碼github
數(shù)據(jù)分據(jù)文章請稍后。

數(shù)據(jù)分析文章:[點評數(shù)據(jù)分析] 吃貨究竟是一群什么樣的人?
