[Python爬蟲練習]大眾點評會員榜

想了解一下吃貨身上都有些什么特質??梢宰ト↑c評的會員數(shù)據(jù)進行分析。

一、URL分析

這個是全國的會員榜,TOP300的吃貨都在這里:

http://www.dianping.com/memberlist/0/0

分析一下URL,要找各城市的會員榜,memberlist后面跟的第一個數(shù)字即是城市ID,如南京是5,下面URL就南京的會員榜,分頁即可得到這個城市前300名的會員。

http://www.dianping.com/memberlist/5

從列表頁得到會員詳情頁的鏈接。

二、分析一下要抓取的會員信息

在列表頁,首先要獲到會員的URL,點評數(shù)、第一個點評、回應數(shù)和鮮花,這些應該是會員排名的重要數(shù)據(jù)。

在詳情頁,有比較多有意思的數(shù)據(jù)(隱私數(shù)據(jù)):

  • 性別、地點
  • 標簽(如 吃貨、購物狂、旅行等)
  • 社區(qū)活躍數(shù)據(jù)
    • 點評數(shù)、收藏數(shù)、簽到數(shù)、圖片數(shù),
    • 貢獻值,等級
    • 關注、粉絲、互動
  • 個人信息和興趣相關數(shù)據(jù)
    • 注冊時間,最后登錄時間
    • 體型
    • 生日、星座、戀愛狀況
    • 畢業(yè)大學
    • 愛好
    • 喜歡的電影,書/作者
    • 喜歡的菜肴/菜系/餐廳

我抓取的數(shù)據(jù)字段:

class FoodieItem(Item):
    url = Field()
    nickname = Field()
    comment_num = Field()
    comment_first = Field()
    comment_response = Field()
    flower = Field()
    level = Field()
    location = Field()
    gender = Field()
    rank = Field()
    contribution = Field()

    loc_check= Field() # 簽到
    collect_num = Field() #收藏數(shù)
    pic_num = Field()
    note_num = Field()
    reg_time = Field()
    fans = Field()
    interaction = Field()
    tags = Field()
    shops = Field() # 商戶數(shù)

    shape = Field()
    love_situation = Field() #戀愛狀況
    birthday = Field()
    occupation = Field()
    college = Field()
    hobby = Field()

    foodtype = Field()
    star_sign = Field() #星座

代碼github

數(shù)據(jù)分據(jù)文章請稍后。


數(shù)據(jù)分析文章:[點評數(shù)據(jù)分析] 吃貨究竟是一群什么樣的人?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • Python學習網(wǎng)絡爬蟲主要分3個大的版塊:抓取,分析,存儲 另外,比較常用的爬蟲框架Scrapy,這里最后也詳細...
    楚江數(shù)據(jù)閱讀 1,528評論 0 6
  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,554評論 19 139
  • 之前準備把大眾點評商戶和評價信息都抓取下來,遇到兩個問題就擱下來。 分類(菜系)、地點都不限制,不能搜到全部信息,...
    向右奔跑閱讀 30,376評論 31 34
  • IPtables 常用命令 查看防火墻的狀態(tài) 啟動/停止/重啟防火墻 插入規(guī)則 查找一條規(guī)則 一些例子 一個腳本 ...
    StarShift閱讀 722評論 0 0
  • 凌晨一點, 從夢中驚醒, 癡癡望著窗外, 思緒像打了死結的線,雜亂無章, 而你, 仍舊是那根拴的最牢的 解起來最煩的
    一只走心的90single汪閱讀 189評論 8 5

友情鏈接更多精彩內容