S01E06.增強(qiáng)01和02課的代碼功能

代碼效果

獲取京客隆網(wǎng)站店鋪信息頁(yè)面下,北京多個(gè)城區(qū)每一頁(yè)的分頁(yè)頁(yè)數(shù)

實(shí)戰(zhàn)代碼
import requests
from lxml import etree
import re
UA偽裝 = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
網(wǎng)址 = 'http://www.jkl.com.cn/shopLis.aspx?TypeId=10044'
proxies={
    'http':'http://XXXXXX@pXXXXX',
    'https':'XXXXX@XXXXXX'
    }
響應(yīng)數(shù)據(jù) = requests.get(url=網(wǎng)址, headers=UA偽裝,proxies=proxies,verify=False).text
解析 = etree.HTML(響應(yīng)數(shù)據(jù))
#通過(guò)xpath解析,獲取即將組成字典數(shù)據(jù)的鍵與值
城區(qū)名稱 = 解析.xpath('//div[@class="infoLis"]//a/text()')
城區(qū)鏈接 = 解析.xpath('//div[@class="infoLis"]//@href')
#目測(cè)數(shù)出一共要爬取的專欄數(shù)量,從1開(kāi)始到12
for i in range(1,13):
    # print(城區(qū)名稱[i-1].strip(),'http://www.jkl.com.cn/cn/' + 城區(qū)鏈接[i-1])
    #將城區(qū)列表中的城區(qū)名稱逐個(gè)賦值給名稱
    名稱 = 城區(qū)名稱[i-1].strip()
    #http://www.jkl.com.cn/shopLis.aspx?TypeId=10045
    鏈接 = 'http://www.jkl.com.cn/' + 城區(qū)鏈接[i-1]
    #print(鏈接)
    響應(yīng)數(shù)據(jù)1 = requests.get(url=鏈接, headers=UA偽裝,proxies=proxies,verify=False).text
    解析 = etree.HTML(響應(yīng)數(shù)據(jù)1)
    尾頁(yè) = 解析.xpath('//a[text()="尾頁(yè)"]/@href')
    #print(尾頁(yè))
    #用尾頁(yè)的鏈接獲取每個(gè)專欄的總頁(yè)數(shù)。
    if 尾頁(yè) != []:
        正則 = re.search("\d{1}", 尾頁(yè)[0])  # 正則筆記1.3
        頁(yè)數(shù) = 正則.group(0)  # group()或group(0)匹配正則表達(dá)式,group(1)匹配第一個(gè)括號(hào),正則筆記2.9
        # print(頁(yè)數(shù))
    else:
        頁(yè)數(shù) = 1
    print(f'{名稱},{鏈接},總頁(yè)數(shù){頁(yè)數(shù)}')
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容