Python爬蟲(chóng)之微博好友圈

數(shù)學(xué)建模已結(jié)束,剛開(kāi)始的目標(biāo)就是不熬夜,結(jié)果還是熬夜了(QAQ),緩了一天就來(lái)寫簡(jiǎn)書(shū)了,感覺(jué)很久沒(méi)爬蟲(chóng)了,今天就爬下移動(dòng)端的微博好友圈信息。

代碼

import requests
import json

headers = {
    'Cookie':'xxxxxxxx',
    'User_Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

f = open('C:/Users/LP/Desktop/weibo.txt','a+',encoding='utf-8')

def get_info(url,page):
    html = requests.get(url,headers=headers)
    json_data = json.loads(html.text)
    card_groups = json_data[0]['card_group']
    for card_group in card_groups:
        f.write(card_group['mblog']['text'].split(' ')[0]+'\n')

    next_cursor = json_data[0]['next_cursor']

    if page<50:
        next_url = 'https://m.weibo.cn/index/friends?format=cards&next_cursor='+str(next_cursor)+'&page=1'
        page = page + 1
        get_info(next_url,page)
    else:
        pass
        f.close()

if __name__ == '__main__':
    url = 'https://m.weibo.cn/index/friends?format=cards'
    get_info(url,1)

代碼分析

  1. 提交cookie模擬登陸微博
  2. 好友圈的信息也是異步加載,如圖為第一頁(yè)的url



    看下返回的數(shù)據(jù)中,這個(gè)next_cursor很重要?。。?!



    往下翻頁(yè),如圖,可以看出第二頁(yè)的url中也有next_cursor,剛好是第一頁(yè)返回的!?。。?!
  3. 這樣就可以構(gòu)造多頁(yè)url,爬取數(shù)據(jù)啦

詞云

最后,jieba分詞做了一個(gè)詞云,除了二哈,感覺(jué)全是群主的,被刷屏了。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容,均僅用于學(xué)習(xí)交流,請(qǐng)勿用于任何商業(yè)用途! 一、前言 強(qiáng)烈建議:請(qǐng)?jiān)陔娔X的陪同下,閱讀本文...
    Bruce_Szh閱讀 13,009評(píng)論 6 28
  • 上一篇學(xué)習(xí)的UITableView的創(chuàng)建和基礎(chǔ)使用,當(dāng)然這只是單機(jī)而已,下面我們來(lái)學(xué)習(xí)聯(lián)網(wǎng),額!貌似學(xué)習(xí)的有點(diǎn)跳,...
    繁華亂世滄桑了誰(shuí)的容顏閱讀 1,204評(píng)論 0 2
  • ¥開(kāi)啟¥ 【iAPP實(shí)現(xiàn)進(jìn)入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開(kāi)一個(gè)線程,因...
    小菜c閱讀 7,355評(píng)論 0 17
  • python學(xué)習(xí)筆記 聲明:學(xué)習(xí)筆記主要是根據(jù)廖雪峰官方網(wǎng)站python學(xué)習(xí)學(xué)習(xí)的,另外根據(jù)自己平時(shí)的積累進(jìn)行修正...
    renyangfar閱讀 3,252評(píng)論 0 10
  • 翻譯約定 primary data: 主數(shù)據(jù)resource identifier object 資源標(biāo)識(shí)符對(duì)象r...
    sladeliu閱讀 2,575評(píng)論 0 2

友情鏈接更多精彩內(nèi)容