Python爬蟲實戰(zhàn)(4)Fiddler+模擬器完成APP數(shù)據(jù)爬取

前言

  • 蛋肥這次想嘗試一下爬取APP的數(shù)據(jù),作為一個萬年潛水的老Jr,這次選擇虎撲APP論美區(qū)照片作為爬取目標,純屬出于學術(shù)研究,沒有其他目的(嘿嘿)。

準備

爬取時間:2021/02/02
系統(tǒng)環(huán)境:Windows 10
所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模擬器
涉及的庫:requests\json

獲取基礎數(shù)據(jù)

小提示
①模擬器不要用Android 7.0以上的內(nèi)核,可能會導致抓包失敗。
②因為url簽名會定期刷新,所以抓包后需盡快執(zhí)行代碼,不然url會失效。
參考資料
使用fiddler+模擬器進行APP抓包

獲取url

蛋肥想法:原本計劃是利用Fiddler+雷神模擬器去完成數(shù)據(jù)抓包,找到數(shù)據(jù)的url規(guī)律,但實際操作發(fā)現(xiàn),url里帶sign,百度了下sign的處理方法,感覺暫時超出了蛋肥的知識范圍,所以這次利用雷神模擬器自帶的“操作錄制”功能,將論美區(qū)的頁面自動下滑至底部,將Fiddler抓取的所有相關(guān)url地址導出,然后再去python里處理url。

#處理Fiddler里導出的url
file=open(r"C:\Users\Archer\Desktop\url.txt","r",encoding='utf-8')
url_list=file.read().split("\n")
Fiddler抓取的部分url

獲取cover地址

蛋肥想法:通過url請求json,觀察json結(jié)構(gòu)發(fā)現(xiàn)“cover”對應封面照片的地址,可用之獲取照片。

import requests
import json

#獲取cover地址
def getpic(url):
    piclink=[]
    for each in url:
        link=each
        headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
        r=requests.get(link,headers=headers,timeout=10)
        json_string=r.text
        json_data=json.loads(json_string)
        coverlist=json_data["data"]["list"]
        for each in coverlist:
            #因某些list里沒有cover,做一個判斷
            if "cover" in each:
                p=each["cover"]
                piclink.append(p)
    return(piclink)

#執(zhí)行函數(shù)
a=getpic(url_list)
#為了獲取原圖去掉url里的resize
b=[x[:x.find("?")] for x in a]
#去掉列表里的空值
c=[x for x in b if x != ""]

獲取照片

#獲取照片
def downloadpic(link):
    for i in range(len(link)):
        print(link[i])
        piclink=link[i]
        pic=requests.get(piclink)
        with open(r'C:\Users\Archer\Desktop\論美區(qū)照片\img'+str(i)+'.png', 'wb') as f:
            f.write(pic.content)

#執(zhí)行函數(shù)   
downloadpic(c)
獲取的部分照片

總結(jié)

  • 利用Fiddler可實現(xiàn)APP數(shù)據(jù)的爬取。
  • 虎撲論美區(qū)網(wǎng)圖是真的多。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 久違的晴天,家長會。 家長大會開好到教室時,離放學已經(jīng)沒多少時間了。班主任說已經(jīng)安排了三個家長分享經(jīng)驗。 放學鈴聲...
    飄雪兒5閱讀 7,865評論 16 22
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友。感恩相遇!感恩不離不棄。 中午開了第一次的黨會,身份的轉(zhuǎn)變要...
    余生動聽閱讀 10,911評論 0 11
  • 在妖界我有個名頭叫胡百曉,無論是何事,只要找到胡百曉即可有解決的辦法。因為是只狐貍大家以訛傳訛叫我“傾城百曉”,...
    貓九0110閱讀 3,728評論 7 3
  • 彩排完,天已黑
    劉凱書法閱讀 4,497評論 1 3

友情鏈接更多精彩內(nèi)容